Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–725 of 10817 papers

Title	Date	Tasks	Status	Hype
Knowledge-Aware Iterative Retrieval for Multi-Agent Systems	Mar 17, 2025	Evidence SelectionLarge Language Model	—Unverified	0
Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding	Mar 17, 2025	AttributeMME	—Unverified	0
From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration	Mar 17, 2025	DenoisingQuestion Answering	—Unverified	0
Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric Videos	Mar 17, 2025	BenchmarkingQuestion Answering	CodeCode Available	1
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research	Mar 17, 2025	ArticlesBenchmarking	CodeCode Available	1
Long-VMNet: Accelerating Long-Form Video Understanding via Fixed Memory	Mar 17, 2025	FormGPU	—Unverified	0
Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference	Mar 17, 2025	Feature CompressionImage Compression	—Unverified	0
MAP: Evaluation and Multi-Agent Enhancement of Large Language Models for Inpatient Pathways	Mar 17, 2025	Decision MakingMedical Question Answering	—Unverified	0
Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions	Mar 17, 2025	Question Answering	—Unverified	0
General Table Question Answering via Answer-Formula Joint Generation	Mar 16, 2025	Question Answering	—Unverified	0
GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing	Mar 16, 2025	Change DetectionImage Captioning	—Unverified	0
PEBench: A Fictitious Dataset to Benchmark Machine Unlearning for Multimodal Large Language Models	Mar 16, 2025	Machine UnlearningPrivacy Preserving	—Unverified	0
DynRsl-VLM: Enhancing Autonomous Driving Perception with Dynamic Resolution Vision-Language Models	Mar 14, 2025	Autonomous DrivingComputational Efficiency	—Unverified	0
Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering	Mar 14, 2025	Embodied Question AnsweringQuestion Answering	—Unverified	0
UMB@PerAnsSumm 2025: Enhancing Perspective-Aware Summarization with Prompt Optimization and Supervised Fine-Tuning	Mar 14, 2025	Community Question AnsweringEnsemble Learning	—Unverified	0
T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation	Mar 14, 2025	AttributeQuestion Answering	CodeCode Available	0
MUSS: Multilevel Subset Selection for Relevance and Diversity	Mar 14, 2025	DiversityQuestion Answering	—Unverified	0
Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering	Mar 14, 2025	Audio Question AnsweringQuestion Answering	CodeCode Available	3
Learning to Inference Adaptively for Multimodal Large Language Models	Mar 13, 2025	HallucinationQuestion Answering	—Unverified	0
KV-Distill: Nearly Lossless Learnable Context Compression for LLMs	Mar 13, 2025	GPUQuestion Answering	—Unverified	0
TIME: Temporal-sensitive Multi-dimensional Instruction Tuning and Benchmarking for Video-LLMs	Mar 13, 2025	BenchmarkingQuestion Answering	—Unverified	0
How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game	Mar 13, 2025	Multimodal ReasoningQuestion Answering	CodeCode Available	1
Unlock the Power of Unlabeled Data in Language Driving Model	Mar 13, 2025	Autonomous DrivingQuestion Answering	—Unverified	0
DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding	Mar 13, 2025	4kAutonomous Driving	CodeCode Available	2
Retrieval-Augmented Generation with Hierarchical Knowledge	Mar 13, 2025	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	4

Show:10 25 50

← PrevPage 29 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified