Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–650 of 10817 papers

Title	Date	Tasks	Status	Hype	Score
Enhancing Multi-modal and Multi-hop Question Answering via Structured Knowledge and Unified Retrieval-Generation	Dec 16, 2022	Answer GenerationDecoder	CodeCode Available	1	5
MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation	Dec 28, 2023	GSM8KLanguage Model Evaluation	CodeCode Available	1	5
Enhancing Table Recognition with Vision LLMs: A Benchmark and Neighbor-Guided Toolchain Reasoner	Dec 30, 2024	Question AnsweringTable Recognition	CodeCode Available	1	5
Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue Questions with LLMs	May 19, 2023	Question AnsweringSemantic Similarity	CodeCode Available	1	5
ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models	Feb 27, 2025	Question AnsweringRAG	CodeCode Available	1	5
Enhancing Vision-Language Pre-Training with Jointly Learned Questioner and Dense Captioner	May 19, 2023	Dense CaptioningImage Captioning	CodeCode Available	1	5
Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot Relation Extractors	May 18, 2023	Instruction FollowingQuestion Answering	CodeCode Available	1	5
Latent Retrieval for Weakly Supervised Open Domain Question Answering	Jun 1, 2019	Information RetrievalOpen-Domain Question Answering	CodeCode Available	1	5
Chain-of-Skills: A Configurable Model for Open-domain Question Answering	May 4, 2023	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1	5
Equivariant and Invariant Grounding for Video Question Answering	Jul 26, 2022	Question AnsweringVideo Question Answering	CodeCode Available	1	5
Ethics Sheets for AI Tasks	Jul 2, 2021	ArticlesEmotion Recognition	CodeCode Available	1	5
Cerbero-7B: A Leap Forward in Language-Specific LLMs Through Enhanced Chat Corpus Generation and Evaluation	Nov 27, 2023	DiversityLanguage Modelling	CodeCode Available	1	5
CC-Riddle: A Question Answering Dataset of Chinese Character Riddles	Jun 28, 2022	General KnowledgeLanguage Modelling	CodeCode Available	1	5
Enhanced Language Representation with Label Knowledge for Span Extraction	Nov 1, 2021	Event DetectionNER	CodeCode Available	1	5
CBR-RAG: Case-Based Reasoning for Retrieval Augmented Generation in LLMs for Legal Question Answering	Apr 4, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
CCQA: A New Web-Scale Question Answering Dataset for Model Pre-Training	Oct 14, 2021	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1	5
ChainCQG: Flow-Aware Conversational Question Generation	Feb 4, 2021	Conversational Question AnsweringQuestion Answering	CodeCode Available	1	5
Enhancing Complex Question Answering over Knowledge Graphs through Evidence Pattern Retrieval	Feb 3, 2024	Information RetrievalKnowledge Graphs	CodeCode Available	1	5
End-to-End Training of Multi-Document Reader and Retriever for Open-Domain Question Answering	Jun 9, 2021	Answer GenerationOpen-Domain Question Answering	CodeCode Available	1	5
End-to-End Training of Neural Retrievers for Open-Domain Question Answering	Jan 2, 2021	Natural QuestionsOpen-Domain Question Answering	CodeCode Available	1	5
Abg-CoQA: Clarifying Ambiguity in Conversational Question Answering	Jun 22, 2021	4kConversational Question Answering	CodeCode Available	1	5
CBench: Towards Better Evaluation of Question Answering Over Knowledge Graphs	Apr 5, 2021	BenchmarkingKnowledge Graphs	CodeCode Available	1	5
Engineering flexible machine learning systems by traversing functionally-invariant paths	Apr 30, 2022	Adversarial RobustnessContinual Learning	CodeCode Available	1	5
Enhancing Contextual Understanding in Large Language Models through Contrastive Decoding	May 4, 2024	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1	5
CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes	Apr 1, 2024	Causal DiscoveryCausal Discovery in Video Reasoning	CodeCode Available	1	5
Causal Distillation for Language Models	Dec 5, 2021	Language ModelingLanguage Modelling	CodeCode Available	1	5
Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering	May 19, 2023	Language ModelingLanguage Modelling	CodeCode Available	1	5
emrQA: A Large Corpus for Question Answering on Electronic Medical Records	Sep 3, 2018	FormQuestion Answering	CodeCode Available	1	5
Encoding and Controlling Global Semantics for Long-form Video Question Answering	May 30, 2024	FormQuestion Answering	CodeCode Available	1	5
Empower Entity Set Expansion via Language Model Probing	Apr 29, 2020	Language ModelingLanguage Modelling	CodeCode Available	1	5
Empowering Large Language Model for Continual Video Question Answering with Collaborative Prompting	Oct 1, 2024	Continual LearningLanguage Modeling	CodeCode Available	1	5
Empirical Study of Zero-Shot NER with ChatGPT	Oct 16, 2023	Arithmetic Reasoningnamed-entity-recognition	CodeCode Available	1	5
Enhancing In-Context Learning with Answer Feedback for Multi-Span Question Answering	Jun 7, 2023	In-Context LearningKeyphrase Extraction	CodeCode Available	1	5
ALaRM: Align Language Models via Hierarchical Rewards Modeling	Mar 11, 2024	Long Form Question AnsweringMachine Translation	CodeCode Available	1	5
CARE: Collaborative AI-Assisted Reading Environment	Feb 24, 2023	Question Answeringtext-classification	CodeCode Available	1	5
Eliminating Position Bias of Language Models: A Mechanistic Approach	Jul 1, 2024	Mathobject-detection	CodeCode Available	1	5
Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models	Nov 14, 2023	Continual LearningQuestion Answering	CodeCode Available	1	5
Capturing Row and Column Semantics in Transformer Based Question Answering over Tables	Apr 16, 2021	Question Answering	CodeCode Available	1	5
ELI5: Long Form Question Answering	Jul 22, 2019	FormLanguage Modeling	CodeCode Available	1	5
Embedding Recycling for Language Models	Jul 11, 2022	Question AnsweringText Classification	CodeCode Available	1	5
ELASTIC: Numerical Reasoning with Adaptive Symbolic Compiler	Oct 18, 2022	Math Word Problem SolvingQuestion Answering	CodeCode Available	1	5
ELECTRAMed: a new pre-trained language representation model for biomedical NLP	Apr 19, 2021	Drug–drug Interaction ExtractionLanguage Modeling	CodeCode Available	1	5
AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding	Jun 19, 2024	Question AnsweringSpatial Reasoning	CodeCode Available	1	5
EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health Records with Chest X-ray Images	Oct 28, 2023	Decision MakingMedical Visual Question Answering	CodeCode Available	1	5
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators	Mar 23, 2020	GPULanguage Modeling	CodeCode Available	1	5
Can't Remember Details in Long Documents? You Need Some R&R	Mar 8, 2024	Question Answering	CodeCode Available	1	5
Can Retriever-Augmented Language Models Reason? The Blame Game Between the Retriever and the Language Model	Dec 18, 2022	Language ModelingLanguage Modelling	CodeCode Available	1	5
EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone	Jul 11, 2023	Action RecognitionMoment Queries	CodeCode Available	1	5
Can Question Rewriting Help Conversational Question Answering?	Apr 13, 2022	Conversational Question AnsweringQuestion Answering	CodeCode Available	1	5
Can questions summarize a corpus? Using question generation for characterizing COVID-19 research	Sep 19, 2020	ArticlesQuestion Answering	CodeCode Available	1	5

Show:10 25 50

← PrevPage 13 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified