Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 726–750 of 10817 papers

Title	Date	Tasks	Status	Hype
AGI-Elo: How Far Are We From Mastering A Task?	May 19, 2025	Code GenerationImage Classification	CodeCode Available	1
ECoRAG: Evidentiality-guided Compression for Long Context RAG	Jun 5, 2025	Answer GenerationOpen-Domain Question Answering	CodeCode Available	1
EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding	Aug 17, 2023	DiagnosticEgoSchema	CodeCode Available	1
Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping	Oct 11, 2024	MMEQuestion Answering	CodeCode Available	1
Dynamic Language Binding in Relational Visual Reasoning	Apr 30, 2020	ObjectQuestion Answering	CodeCode Available	1
Dynamic Relevance Graph Network for Knowledge-Aware Question Answering	Sep 20, 2022	Graph Neural NetworkQuestion Answering	CodeCode Available	1
DyGKT: Dynamic Graph Learning for Knowledge Tracing	Jul 30, 2024	Graph LearningKnowledge Tracing	CodeCode Available	1
DualVGR: A Dual-Visual Graph Reasoning Unit for Video Question Answering	Jul 10, 2021	Graph AttentionQuestion Answering	CodeCode Available	1
Dynamically Fused Graph Network for Multi-hop Reasoning	May 16, 2019	Question Answering	CodeCode Available	1
Dynamic Semantic Graph Construction and Reasoning for Explainable Multi-hop Science Question Answering	May 25, 2021	Abstract Meaning RepresentationARC	CodeCode Available	1
Dual-Key Multimodal Backdoors for Visual Question Answering	Dec 14, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open Domain Question Answering	Aug 5, 2021	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1
Agentic Keyframe Search for Video Question Answering	Mar 20, 2025	EgoSchemaQuestion Answering	CodeCode Available	1
DUAL: Discrete Spoken Unit Adaptive Learning for Textless Spoken Question Answering	Mar 9, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
DynaPipe: Optimizing Multi-task Training through Dynamic Pipelines	Nov 17, 2023	Language ModellingLarge Language Model	CodeCode Available	1
DRESSing Up LLM: Efficient Stylized Question-Answering via Style Subspace Editing	Jan 24, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
DrBenchmark: A Large Language Understanding Evaluation Benchmark for French Biomedical Domain	Feb 20, 2024	named-entity-recognitionNamed Entity Recognition	CodeCode Available	1
Towards General Natural Language Understanding with Probabilistic Worldbuilding	May 6, 2021	Natural Language UnderstandingQuestion Answering	CodeCode Available	1
DREAM: Improving Situational QA by First Elaborating the Situation	Dec 16, 2021	Question Answering	CodeCode Available	1
DrugEHRQA: A Question Answering Dataset on Structured and Unstructured Electronic Health Records For Medicine Related Queries	May 3, 2022	Question AnsweringText to SQL	CodeCode Available	1
Don't Generate, Discriminate: A Proposal for Grounding Language Models to Real-World Environments	Dec 19, 2022	In-Context LearningKnowledge Base Question Answering	CodeCode Available	1
DOM-LM: Learning Generalizable Representations for HTML Documents	Jan 25, 2022	AttributeAttribute Extraction	CodeCode Available	1
Don't Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases	Sep 9, 2019	Natural Language InferenceQuestion Answering	CodeCode Available	1
A Personalized Dense Retrieval Framework for Unified Information Access	Apr 26, 2023	Information RetrievalQuestion Answering	CodeCode Available	1
SentenceMIM: A Latent Variable Language Model	Feb 18, 2020	Language ModelingLanguage Modelling	CodeCode Available	1

Show:10 25 50

← PrevPage 30 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified