Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1426–1450 of 10817 papers

Title	Date	Tasks	Status	Hype
Interpreting Chest X-rays Like a Radiologist: A Benchmark with Clinical Reasoning	May 29, 2025	DiagnosticQuestion Answering	CodeCode Available	1
Invariant Grounding for Video Question Answering	Jun 6, 2022	Question AnsweringVideo Question Answering	CodeCode Available	1
Investigating Entity Knowledge in BERT with Simple Neural End-To-End Entity Linking	Mar 11, 2020	Entity DisambiguationEntity Linking	CodeCode Available	1
Are Bias Mitigation Techniques for Deep Learning Effective?	Apr 1, 2021	Deep LearningQuestion Answering	CodeCode Available	1
BERT-kNN: Adding a kNN Search Component to Pretrained Language Models for Better QA	May 2, 2020	Information RetrievalLanguage Modeling	CodeCode Available	1
Why So Gullible? Enhancing the Robustness of Retrieval-Augmented Models against Counterfactual Noise	May 2, 2023	counterfactualFew-Shot Learning	CodeCode Available	1
DialogLM: Pre-trained Model for Long Dialogue Understanding and Summarization	Sep 6, 2021	abstractive question answeringDenoising	CodeCode Available	1
DialSim: A Real-Time Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents	Jun 19, 2024	Dialogue UnderstandingQuestion Answering	CodeCode Available	1
Bridging Anaphora Resolution as Question Answering	Apr 16, 2020	Bridging Anaphora ResolutionQuestion Answering	CodeCode Available	1
AFET: Automatic Fine-Grained Entity Typing by Hierarchical Partial-Label Embedding	Nov 1, 2016	Entity TypingNamed Entity Recognition (NER)	CodeCode Available	1
DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs	Jun 24, 2024	Question AnsweringRetrieval	CodeCode Available	1
JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension	Feb 3, 2022	ArticlesMachine Reading Comprehension	CodeCode Available	1
BERTVision -- A Parameter-Efficient Approach for Question Answering	Feb 24, 2022	GPUQuestion Answering	CodeCode Available	1
DeVLBert: Learning Deconfounded Visio-Linguistic Representations	Aug 16, 2020	Image RetrievalQuestion Answering	CodeCode Available	1
Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion Approach for 3D VQA	Feb 24, 2024	3D Question Answering (3D-QA)Question Answering	CodeCode Available	1
BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation	Feb 18, 2024	GPUQuestion Answering	CodeCode Available	1
KALA: Knowledge-Augmented Language Model Adaptation	Apr 22, 2022	Domain AdaptationGeneral Knowledge	CodeCode Available	1
KBQA-o1: Agentic Knowledge Base Question Answering with Monte Carlo Tree Search	Jan 31, 2025	Heuristic SearchKnowledge Base Question Answering	CodeCode Available	1
Dialog Inpainting: Turning Documents into Dialogs	May 18, 2022	Conversational Question AnsweringQuestion Answering	CodeCode Available	1
KETM:A Knowledge-Enhanced Text Matching method	Aug 11, 2023	Common Sense ReasoningQuestion Answering	CodeCode Available	1
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies	Jan 6, 2021	Question AnsweringStrategyQA	CodeCode Available	1
Detecting and Preventing Hallucinations in Large Vision Language Models	Aug 11, 2023	16kHallucination	CodeCode Available	1
KG-Retriever: Efficient Knowledge Indexing for Retrieval-Augmented Large Language Models	Dec 7, 2024	Multi-hop Question AnsweringNavigate	CodeCode Available	1
Big Bird: Transformers for Longer Sequences	Jul 28, 2020	Linguistic AcceptabilityNatural Language Inference	CodeCode Available	1
Designing a Minimal Retrieve-and-Read System for Open-Domain Question Answering	Apr 15, 2021	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1

Show:10 25 50

← PrevPage 58 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified