Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2426–2450 of 10817 papers

Title	Date	Tasks	Status	Score
Look Before You Leap: A Universal Emergent Decomposition of Retrieval Tasks in Language Models	Dec 13, 2023	AttributeQuestion Answering	CodeCode Available	5
Looking Beyond Visible Cues: Implicit Video Question Answering via Dual-Clue Reasoning	Jun 9, 2025	Future predictionQuestion Answering	CodeCode Available	5
A Knowledge-Grounded Multimodal Search-Based Conversational Agent	Oct 20, 2018	DecoderQuestion Answering	CodeCode Available	5
A Recurrent BERT-based Model for Question Generation	Nov 1, 2019	Language ModelingLanguage Modelling	CodeCode Available	5
Look before you Hop: Conversational Question Answering over Knowledge Graphs Using Judicious Context Expansion	Oct 8, 2019	Conversational Question AnsweringKnowledge Graphs	CodeCode Available	5
CERET: Cost-Effective Extrinsic Refinement for Text Generation	Jun 8, 2024	Abstractive Text SummarizationQuestion Answering	CodeCode Available	5
Look, Read and Enrich. Learning from Scientific Figures and their Captions	Sep 19, 2019	Multi-modal ClassificationQuestion Answering	CodeCode Available	5
Long Story Short: a Summarize-then-Search Method for Long Video Question Answering	Nov 2, 2023	DiversityQuestion Answering	CodeCode Available	5
LongFaith: Enhancing Long-Context Reasoning in LLMs with Faithful Synthetic Data	Feb 18, 2025	MisinformationQuestion Answering	CodeCode Available	5
A Benchmark for Long-Form Medical Question Answering	Nov 14, 2024	Answer GenerationForm	CodeCode Available	5
LogiQA 2.0—An Improved Dataset for Logical Reasoning in Natural Language Understanding	Jun 6, 2023	Logical ReasoningLogical Reasoning Reading Comprehension	CodeCode Available	5
CAVE: Correcting Attribute Values in E-commerce Profiles	Oct 17, 2022	AttributeAttribute Value Extraction	CodeCode Available	5
Logic Query of Thoughts: Guiding Large Language Models to Answer Complex Logic Queries with Knowledge Graphs	Mar 17, 2024	HallucinationKnowledge Graphs	CodeCode Available	5
Logical Implications for Visual Question Answering Consistency	Mar 16, 2023	Language ModelingLanguage Modelling	CodeCode Available	5
Long-context Non-factoid Question Answering in Indic Languages	Apr 18, 2025	coreference-resolutionCoreference Resolution	CodeCode Available	5
Causal Question Answering with Reinforcement Learning	Nov 5, 2023	Fact CheckingLink Prediction	CodeCode Available	5
CausalQA: A Benchmark for Causal Question Answering	Oct 1, 2022	Question Answering	CodeCode Available	5
Causal Graphs Meet Thoughts: Enhancing Complex Reasoning in Graph-Augmented LLMs	Jan 24, 2025	Knowledge GraphsMedical Question Answering	CodeCode Available	5
A Joint Sequence Fusion Model for Video Question Answering and Retrieval	Aug 7, 2018	DecoderMultiple-choice	CodeCode Available	5
Location Aware Modular Biencoder for Tourism Question Answering	Jan 4, 2024	Question AnsweringRetrieval	CodeCode Available	5
A Benchmark for Generalizable and Interpretable Temporal Question Answering over Knowledge Bases	Jan 15, 2022	Knowledge Base Question AnsweringQuestion Answering	CodeCode Available	5
CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain Performance and Calibration	Sep 14, 2023	counterfactualData Augmentation	CodeCode Available	5
Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a Class-imbalance View	Oct 30, 2020	Face Recognitionimage-classification	CodeCode Available	5
MeeQA: Natural Questions in Meeting Transcripts	May 15, 2023	Natural QuestionsQuestion Answering	CodeCode Available	5
CATENA: CAusal and TEmporal relation extraction from NAtural language texts	Dec 1, 2016	General ClassificationQuestion Answering	CodeCode Available	5

Show:10 25 50

← PrevPage 98 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified