Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 741–750 of 10817 papers

Title	Date	Tasks	Status	Hype
MapQA: Open-domain Geospatial Question Answering on Map Data	Mar 10, 2025	DiversityLanguage Modeling	—Unverified	0
Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning	Mar 10, 2025	Question Answering	—Unverified	0
From Text to Visuals: Using LLMs to Generate Math Diagrams with Vector Graphics	Mar 10, 2025	MathQuestion Answering	—Unverified	0
MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning	Mar 10, 2025	BenchmarkingMedical Question Answering	CodeCode Available	2
Towards Fine-Grained Video Question Answering	Mar 10, 2025	Language ModelingLanguage Modelling	—Unverified	0
A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis	Mar 10, 2025	Question Answering	CodeCode Available	2
ReAgent: Reversible Multi-Agent Reasoning for Knowledge-Enhanced Multi-Hop QA	Mar 10, 2025	Multi-hop Question AnsweringQuestion Answering	—Unverified	0
Talking to GDELT Through Knowledge Graphs	Mar 10, 2025	ArticlesKnowledge Graphs	—Unverified	0
KwaiChat: A Large-Scale Video-Driven Multilingual Mixed-Type Dialogue Corpus	Mar 10, 2025	In-Context LearningQuestion Answering	CodeCode Available	0
Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru	Mar 10, 2025	Autonomous DrivingQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 75 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified