Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 71–80 of 10817 papers

Title	Date	Tasks	Status	Hype
Think before You Simulate: Symbolic Reasoning to Orchestrate Neural Computation for Counterfactual Question Answering	Jun 12, 2025	counterfactualCounterfactual Reasoning	CodeCode Available	0
VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos	Jun 12, 2025	Question Answering	—Unverified	0
Specification and Evaluation of Multi-Agent LLM Systems -- Prototype and Cybersecurity Applications	Jun 12, 2025	Code GenerationQuestion Answering	CodeCode Available	0
EQA-RM: A Generative Embodied Reward Model with Test-time Scaling	Jun 12, 2025	Embodied Question AnsweringQuestion Answering	CodeCode Available	0
Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors	Jun 12, 2025	Question AnsweringSafety Alignment	CodeCode Available	0
MedSeg-R: Reasoning Segmentation in Medical Images with Multimodal Large Language Models	Jun 12, 2025	Image SegmentationMedical Diagnosis	—Unverified	0
HalLoc: Token-level Localization of Hallucinations for Vision Language Models	Jun 12, 2025	HallucinationImage Captioning	CodeCode Available	0
Can We Infer Confidential Properties of Training Data from LLMs?	Jun 12, 2025	image-classificationImage Classification	—Unverified	0
TableRAG: A Retrieval Augmented Generation Framework for Heterogeneous Document Reasoning	Jun 12, 2025	Answer GenerationChunking	CodeCode Available	2
Different Questions, Different Models: Fine-Grained Evaluation of Uncertainty and Calibration in Clinical QA with LLMs	Jun 12, 2025	Multiple-choiceQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 8 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified