Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2611–2620 of 10817 papers

Title	Date	Tasks	Status
AdaCM^2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction	Nov 19, 2024	GPUQuestion Answering	—Unverified
EarthSE: A Benchmark Evaluating Earth Scientific Exploration Capability for Large Language Models	May 22, 2025	Question AnsweringSpecificity	—Unverified
Echo: A Large Language Model with Temporal Episodic Memory	Feb 22, 2025	Language ModelingLanguage Modelling	—Unverified
CaTeRS: Causal and Temporal Relation Scheme for Semantic Annotation of Event Structures	Jun 1, 2016	Question AnsweringRelation	—Unverified
Arabic Textual Entailment with Word Embeddings	Apr 1, 2017	Machine TranslationNatural Language Inference	—Unverified
Categorizing Concepts With Basic Level for Vision-to-Language	Jun 1, 2018	ClusteringImage Captioning	—Unverified
A Joint Model for Answer Sentence Ranking and Answer Extraction	Jan 1, 2016	Information RetrievalQuestion Answering	—Unverified
Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs	Oct 31, 2024	In-Context LearningMemorization	—Unverified
Categorization of Semantic Roles for Dictionary Definitions	Dec 1, 2016	Question Answering	—Unverified
CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs	Nov 19, 2024	HallucinationLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 262 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified