Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1401–1425 of 10817 papers

Title	Date	Tasks	Status	Hype
Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese Medical Exam Dataset	Jun 5, 2023	BenchmarkingMultiple-choice	CodeCode Available	1
IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model	Jul 10, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
DialogLM: Pre-trained Model for Long Dialogue Understanding and Summarization	Sep 6, 2021	abstractive question answeringDenoising	CodeCode Available	1
Designing a Minimal Retrieve-and-Read System for Open-Domain Question Answering	Apr 15, 2021	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1
Improving Embedded Knowledge Graph Multi-hop Question Answering by introducing Relational Chain Reasoning	Oct 25, 2021	Graph Question AnsweringImplicit Relations	CodeCode Available	1
Improving Factual Consistency of Abstractive Summarization via Question Answering	May 10, 2021	Abstractive Text SummarizationQuestion Answering	CodeCode Available	1
Detecting and Preventing Hallucinations in Large Vision Language Models	Aug 11, 2023	16kHallucination	CodeCode Available	1
Dense Passage Retrieval for Open-Domain Question Answering	Apr 10, 2020	Open-Domain Question AnsweringPassage Retrieval	CodeCode Available	1
Describe Anything Model for Visual Question Answering on Text-rich Images	Jul 16, 2025	DescriptiveLanguage Modeling	CodeCode Available	1
Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL Models	May 31, 2023	Cross-Modal RetrievalQuestion Answering	CodeCode Available	1
Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in Visual Question Answering	Apr 7, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
In-Context Learning with Iterative Demonstration Selection	Oct 15, 2023	Few-Shot LearningIn-Context Learning	CodeCode Available	1
Benchmarking Retrieval-Augmented Multimomal Generation for Document Question Answering	May 22, 2025	BenchmarkingEvidence Selection	CodeCode Available	1
An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation	Jun 3, 2024	Answer GenerationQuestion Answering	CodeCode Available	1
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA	May 13, 2020	Image CaptioningMulti-Label Classification	CodeCode Available	1
IndicSQuAD: A Comprehensive Multilingual Question Answering Dataset for Indic Languages	May 6, 2025	Question Answering	CodeCode Available	1
IndoNLG: Benchmark and Resources for Evaluating Indonesian Natural Language Generation	Apr 16, 2021	Machine TranslationQuestion Answering	CodeCode Available	1
Inductive Relation Prediction by Subgraph Reasoning	Nov 16, 2019	Graph EmbeddingGraph Neural Network	CodeCode Available	1
InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective	Oct 5, 2020	Natural Language InferenceQuestion Answering	CodeCode Available	1
DELIFT: Data Efficient Language model Instruction Fine Tuning	Nov 7, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Information Theoretic Representation Distillation	Dec 1, 2021	Classification with Binary Weight NetworkKnowledge Distillation	CodeCode Available	1
-Video: A Training-Free Approach to Long Video Understanding via Continuous-Time Memory Consolidation	Jan 31, 2025	Question AnsweringVideo Question Answering	CodeCode Available	1
INSIDE: LLMs' Internal States Retain the Power of Hallucination Detection	Feb 6, 2024	DiversityHallucination	CodeCode Available	1
Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks	Apr 23, 2024	Mathematical Problem-SolvingQuestion Answering	CodeCode Available	1
Dense Hierarchical Retrieval for Open-Domain Question Answering	Oct 28, 2021	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1

Show:10 25 50

← PrevPage 57 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified