Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1976–2000 of 10817 papers

Title	Date	Tasks	Status	Hype
AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning	Mar 18, 2023	parameter-efficient fine-tuningQuestion Answering	CodeCode Available	1
Counterfactual Variable Control for Robust and Interpretable Question Answering	Oct 12, 2020	Causal Inferencecounterfactual	CodeCode Available	1
The Atlas of In-Context Learning: How Attention Heads Shape In-Context Retrieval Augmentation	May 21, 2025	Answer GenerationIn-Context Learning	CodeCode Available	1
Dense Passage Retrieval for Open-Domain Question Answering	Apr 10, 2020	Open-Domain Question AnsweringPassage Retrieval	CodeCode Available	1
The Critique of Critique	Jan 9, 2024	Question Answering	CodeCode Available	1
A Dataset for Medical Instructional Video Classification and Question Answering	Jan 30, 2022	ClassificationQuestion Answering	CodeCode Available	1
AssistSR: Task-oriented Video Segment Retrieval for Personal AI Assistant	Nov 30, 2021	Question AnsweringRetrieval	CodeCode Available	1
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA	May 13, 2020	Image CaptioningMulti-Label Classification	CodeCode Available	1
Describe Anything Model for Visual Question Answering on Text-rich Images	Jul 16, 2025	DescriptiveLanguage Modeling	CodeCode Available	1
Clinical-Longformer and Clinical-BigBird: Transformers for long clinical sequences	Jan 27, 2022	Clinical KnowledgeDocument Classification	CodeCode Available	1
Clinical Reading Comprehension: A Thorough Analysis of the emrQA Dataset	May 1, 2020	Machine Reading ComprehensionQuestion Answering	CodeCode Available	1
DELIFT: Data Efficient Language model Instruction Fine Tuning	Nov 7, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Clinical Temporal Relation Extraction with Probabilistic Soft Logic Regularization and Global Inference	Dec 16, 2020	Feature EngineeringMedical Question Answering	CodeCode Available	1
A Memory Efficient Baseline for Open Domain Question Answering	Dec 30, 2020	Dimensionality ReductionOpen-Domain Question Answering	CodeCode Available	1
CliniQG4QA: Generating Diverse Questions for Domain Adaptation of Clinical Question Answering	Oct 30, 2020	Domain AdaptationQuestion Answering	CodeCode Available	1
DegreEmbed: incorporating entity embedding into logic rule learning for knowledge graph reasoning	Dec 18, 2021	Knowledge GraphsLink Prediction	CodeCode Available	1
AmbigQA: Answering Ambiguous Open-domain Questions	Apr 22, 2020	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1
Delaying Interaction Layers in Transformer-based Encoders for Efficient Open Domain Question Answering	Oct 16, 2020	Information RetrievalManagement	CodeCode Available	1
THREAD: Thinking Deeper with Recursive Spawning	May 27, 2024	Few-Shot LearningQuestion Answering	CodeCode Available	1
Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL Models	May 31, 2023	Cross-Modal RetrievalQuestion Answering	CodeCode Available	1
Time-Stamped Language Model: Teaching Language Models to Understand the Flow of Events	Apr 15, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Designing a Minimal Retrieve-and-Read System for Open-Domain Question Answering	Apr 15, 2021	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1
DeepSense: A Unified Deep Learning Framework for Time-Series Mobile Sensing Data Processing	Nov 7, 2016	Activity RecognitionGeneral Classification	CodeCode Available	1
ECONET: Effective Continual Pretraining of Language Models for Event Temporal Reasoning	Dec 30, 2020	Continual PretrainingLanguage Modelling	CodeCode Available	1
Deep Multimodal Neural Architecture Search	Apr 25, 2020	DecoderImage-text matching	CodeCode Available	1

Show:10 25 50

← PrevPage 80 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified