Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2401–2410 of 10817 papers

Title	Date	Tasks	Status	Score
Characterising Topic Familiarity and Query Specificity Using Eye-Tracking Data	May 6, 2025	Pupil DilationQuestion Answering	CodeCode Available	5
Character Identification on Multiparty Conversation: Identifying Mentions of Characters in TV Shows	Sep 1, 2016	Coreference ResolutionEntity Linking	CodeCode Available	5
Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a Class-imbalance View	Oct 30, 2020	Face Recognitionimage-classification	CodeCode Available	5
LVLM-Compress-Bench: Benchmarking the Broader Impact of Large Vision-Language Model Compression	Mar 6, 2025	BenchmarkingCommon Sense Reasoning	CodeCode Available	5
Is Multihop QA in DiRe Condition? Measuring and Reducing Disconnected Reasoning	May 2, 2020	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	5
Look before you Hop: Conversational Question Answering over Knowledge Graphs Using Judicious Context Expansion	Oct 8, 2019	Conversational Question AnsweringKnowledge Graphs	CodeCode Available	5
Long Story Short: a Summarize-then-Search Method for Long Video Question Answering	Nov 2, 2023	DiversityQuestion Answering	CodeCode Available	5
Look Before You Leap: A Universal Emergent Decomposition of Retrieval Tasks in Language Models	Dec 13, 2023	AttributeQuestion Answering	CodeCode Available	5
Challenges in Generalization in Open Domain Question Answering	Sep 2, 2021	Natural QuestionsOpen-Domain Question Answering	CodeCode Available	5
Are Large Language Models Really Robust to Word-Level Perturbations?	Sep 20, 2023	DiagnosticQuestion Answering	CodeCode Available	5

Show:10 25 50

← PrevPage 241 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified