Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1401–1450 of 10817 papers

Title	Date	Tasks	Status	Hype
Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese Medical Exam Dataset	Jun 5, 2023	BenchmarkingMultiple-choice	CodeCode Available	1
Improving Passage Retrieval with Zero-Shot Question Generation	Apr 15, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
DisentQA: Disentangling Parametric and Contextual Knowledge with Counterfactual Question Answering	Nov 10, 2022	counterfactualData Augmentation	CodeCode Available	1
Improving Retrieval-Augmented Large Language Models via Data Importance Learning	Jul 6, 2023	ImputationQuestion Answering	CodeCode Available	1
In-Context Learning with Iterative Demonstration Selection	Oct 15, 2023	Few-Shot LearningIn-Context Learning	CodeCode Available	1
Incorporating Relevance Feedback for Information-Seeking Retrieval using Few-Shot Document Re-Ranking	Oct 19, 2022	Argument RetrievalInformation Retrieval	CodeCode Available	1
Bioformer: an efficient transformer language model for biomedical text mining	Feb 3, 2023	ArticlesDocument Classification	CodeCode Available	1
AtomR: Atomic Operator-Empowered Large Language Models for Heterogeneous Knowledge Reasoning	Nov 25, 2024	HallucinationQuestion Answering	CodeCode Available	1
Inductive Relation Prediction by Subgraph Reasoning	Nov 16, 2019	Graph EmbeddingGraph Neural Network	CodeCode Available	1
Disfl-QA: A Benchmark Dataset for Understanding Disfluencies in Question Answering	Jun 8, 2021	Data AugmentationQuestion Answering	CodeCode Available	1
Ditch the Gold Standard: Re-evaluating Conversational Question Answering	Dec 16, 2021	Conversational Question AnsweringQuestion Answering	CodeCode Available	1
DOM-LM: Learning Generalizable Representations for HTML Documents	Jan 25, 2022	AttributeAttribute Extraction	CodeCode Available	1
Benchmarking Retrieval-Augmented Multimomal Generation for Document Question Answering	May 22, 2025	BenchmarkingEvidence Selection	CodeCode Available	1
An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation	Jun 3, 2024	Answer GenerationQuestion Answering	CodeCode Available	1
Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs	Feb 17, 2024	Knowledge GraphsMulti-hop Question Answering	CodeCode Available	1
Infusing Disease Knowledge into BERT for Health Question Answering, Medical Inference and Disease Name Recognition	Oct 8, 2020	Question AnsweringWorld Knowledge	CodeCode Available	1
Injecting Numerical Reasoning Skills into Language Models	Apr 9, 2020	Data AugmentationDecoder	CodeCode Available	1
INSCIT: Information-Seeking Conversations with Mixed-Initiative Interactions	Jul 2, 2022	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1
InsQABench: Benchmarking Chinese Insurance Domain Question Answering with Large Language Models	Jan 19, 2025	BenchmarkingQuestion Answering	CodeCode Available	1
Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in Visual Question Answering	Dec 14, 2021	Graph MatchingQuestion Answering	CodeCode Available	1
IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce	Jun 14, 2024	Multiple-choiceQuestion Answering	CodeCode Available	1
Interacted Object Grounding in Spatio-Temporal Human-Object Interactions	Dec 27, 2024	Human-Object Interaction DetectionObject	CodeCode Available	1
A Deep Generative Framework for Paraphrase Generation	Sep 15, 2017	DecoderInformation Retrieval	CodeCode Available	1
Differentiable Reasoning on Large Knowledge Bases and Natural Language	Dec 17, 2019	Link PredictionQuestion Answering	CodeCode Available	1
Interpretable Long-Form Legal Question Answering with Retrieval-Augmented Large Language Models	Sep 29, 2023	FormNavigate	CodeCode Available	1
Interpreting Chest X-rays Like a Radiologist: A Benchmark with Clinical Reasoning	May 29, 2025	DiagnosticQuestion Answering	CodeCode Available	1
Invariant Grounding for Video Question Answering	Jun 6, 2022	Question AnsweringVideo Question Answering	CodeCode Available	1
Investigating Entity Knowledge in BERT with Simple Neural End-To-End Entity Linking	Mar 11, 2020	Entity DisambiguationEntity Linking	CodeCode Available	1
Are Bias Mitigation Techniques for Deep Learning Effective?	Apr 1, 2021	Deep LearningQuestion Answering	CodeCode Available	1
BERT-kNN: Adding a kNN Search Component to Pretrained Language Models for Better QA	May 2, 2020	Information RetrievalLanguage Modeling	CodeCode Available	1
Why So Gullible? Enhancing the Robustness of Retrieval-Augmented Models against Counterfactual Noise	May 2, 2023	counterfactualFew-Shot Learning	CodeCode Available	1
DialogLM: Pre-trained Model for Long Dialogue Understanding and Summarization	Sep 6, 2021	abstractive question answeringDenoising	CodeCode Available	1
DialSim: A Real-Time Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents	Jun 19, 2024	Dialogue UnderstandingQuestion Answering	CodeCode Available	1
Bridging Anaphora Resolution as Question Answering	Apr 16, 2020	Bridging Anaphora ResolutionQuestion Answering	CodeCode Available	1
AFET: Automatic Fine-Grained Entity Typing by Hierarchical Partial-Label Embedding	Nov 1, 2016	Entity TypingNamed Entity Recognition (NER)	CodeCode Available	1
DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs	Jun 24, 2024	Question AnsweringRetrieval	CodeCode Available	1
JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension	Feb 3, 2022	ArticlesMachine Reading Comprehension	CodeCode Available	1
BERTVision -- A Parameter-Efficient Approach for Question Answering	Feb 24, 2022	GPUQuestion Answering	CodeCode Available	1
DeVLBert: Learning Deconfounded Visio-Linguistic Representations	Aug 16, 2020	Image RetrievalQuestion Answering	CodeCode Available	1
Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion Approach for 3D VQA	Feb 24, 2024	3D Question Answering (3D-QA)Question Answering	CodeCode Available	1
BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation	Feb 18, 2024	GPUQuestion Answering	CodeCode Available	1
KALA: Knowledge-Augmented Language Model Adaptation	Apr 22, 2022	Domain AdaptationGeneral Knowledge	CodeCode Available	1
KBQA-o1: Agentic Knowledge Base Question Answering with Monte Carlo Tree Search	Jan 31, 2025	Heuristic SearchKnowledge Base Question Answering	CodeCode Available	1
Dialog Inpainting: Turning Documents into Dialogs	May 18, 2022	Conversational Question AnsweringQuestion Answering	CodeCode Available	1
KETM:A Knowledge-Enhanced Text Matching method	Aug 11, 2023	Common Sense ReasoningQuestion Answering	CodeCode Available	1
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies	Jan 6, 2021	Question AnsweringStrategyQA	CodeCode Available	1
Detecting and Preventing Hallucinations in Large Vision Language Models	Aug 11, 2023	16kHallucination	CodeCode Available	1
KG-Retriever: Efficient Knowledge Indexing for Retrieval-Augmented Large Language Models	Dec 7, 2024	Multi-hop Question AnsweringNavigate	CodeCode Available	1
Big Bird: Transformers for Longer Sequences	Jul 28, 2020	Linguistic AcceptabilityNatural Language Inference	CodeCode Available	1
Designing a Minimal Retrieve-and-Read System for Open-Domain Question Answering	Apr 15, 2021	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1

Show:10 25 50

← PrevPage 29 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified