Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2001–2025 of 10817 papers

Title	Date	Tasks	Status	Hype
CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation	Sep 3, 2024	Dataset GenerationQuestion Answering	CodeCode Available	1
DeVLBert: Learning Deconfounded Visio-Linguistic Representations	Aug 16, 2020	Image RetrievalQuestion Answering	CodeCode Available	1
A Memory Efficient Baseline for Open Domain Question Answering	Dec 30, 2020	Dimensionality ReductionOpen-Domain Question Answering	CodeCode Available	1
Towards Benchmarking and Improving the Temporal Reasoning Capability of Large Language Models	Jun 15, 2023	BenchmarkingQuestion Answering	CodeCode Available	1
DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs	Jun 24, 2024	Question AnsweringRetrieval	CodeCode Available	1
CLTR: An End-to-End, Transformer-Based System for Cell Level Table Retrieval and Table Question Answering	Jun 8, 2021	Question AnsweringRetrieval	CodeCode Available	1
Detecting Hate Speech in Multi-modal Memes	Dec 29, 2020	Binary ClassificationHate Speech Detection	CodeCode Available	1
AmbigQA: Answering Ambiguous Open-domain Questions	Apr 22, 2020	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1
Clues Before Answers: Generation-Enhanced Multiple-Choice QA	Apr 30, 2022	DecoderMultiple-choice	CodeCode Available	1
Towards Explainable 3D Grounded Visual Question Answering: A New Benchmark and Strong Baseline	Sep 24, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1
A Simple LLM Framework for Long-Range Video Question-Answering	Dec 28, 2023	EgoSchemaLanguage Modelling	CodeCode Available	1
Development and bilingual evaluation of Japanese medical large language model within reasonably low computational resources	Sep 18, 2024	GPULanguage Modeling	CodeCode Available	1
Dialog Inpainting: Turning Documents into Dialogs	May 18, 2022	Conversational Question AnsweringQuestion Answering	CodeCode Available	1
Towards Improving Faithfulness in Abstractive Summarization	Oct 4, 2022	Abstractive Text SummarizationDecoder	CodeCode Available	1
Designing a Minimal Retrieve-and-Read System for Open-Domain Question Answering	Apr 15, 2021	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1
Describe Anything Model for Visual Question Answering on Text-rich Images	Jul 16, 2025	DescriptiveLanguage Modeling	CodeCode Available	1
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models	Apr 23, 2024	Logical ReasoningQuestion Answering	CodeCode Available	1
Toward Subgraph-Guided Knowledge Graph Question Generation with Graph Neural Networks	Apr 13, 2020	Data AugmentationDecoder	CodeCode Available	1
Densely Connected Attention Propagation for Reading Comprehension	Nov 10, 2018	AllOpen-Domain Question Answering	CodeCode Available	1
Towards Vision-Language Mechanistic Interpretability: A Causal Tracing Tool for BLIP	Aug 27, 2023	Question AnsweringText Generation	CodeCode Available	1
Tracing Origins: Coreference-aware Machine Reading Comprehension	Oct 15, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Dense Hierarchical Retrieval for Open-Domain Question Answering	Oct 28, 2021	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1
Dense Passage Retrieval for Open-Domain Question Answering	Apr 10, 2020	Open-Domain Question AnsweringPassage Retrieval	CodeCode Available	1
Detecting and Preventing Hallucinations in Large Vision Language Models	Aug 11, 2023	16kHallucination	CodeCode Available	1
DELIFT: Data Efficient Language model Instruction Fine Tuning	Nov 7, 2024	Language ModelingLanguage Modelling	CodeCode Available	1

Show:10 25 50

← PrevPage 81 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified