Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 10817 papers

Title	Date	Tasks	Status	Hype
VideoCAD: A Large-Scale Video Dataset for Learning UI Interactions and 3D Reasoning from CAD Software	May 30, 2025	Question AnsweringSpatial Reasoning	CodeCode Available	1
Exploring the Impact of Occupational Personas on Domain-Specific QA	May 30, 2025	Question Answering	—Unverified	0
Grid-LOGAT: Grid Based Local and Global Area Transcription for Video Question Answering	May 30, 2025	Language ModelingLanguage Modelling	—Unverified	0
Light as Deception: GPT-driven Natural Relighting Against Vision-Language Pre-training Models	May 30, 2025	Image CaptioningQuestion Answering	—Unverified	0
A Simple Linear Patch Revives Layer-Pruned Large Language Models	May 30, 2025	Knowledge DistillationQuestion Answering	—Unverified	0
Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck	May 30, 2025	Question AnsweringVisual Question Answering	—Unverified	0
Drop Dropout on Single-Epoch Language Model Pretraining	May 30, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
LGAR: Zero-Shot LLM-Guided Neural Ranking for Abstract Screening in Systematic Literature Reviews	May 30, 2025	Binary ClassificationQuestion Answering	CodeCode Available	0
Improving Reliability and Explainability of Medical Question Answering through Atomic Fact Checking in Retrieval-Augmented LLMs	May 30, 2025	Fact CheckingHallucination	—Unverified	0
Revisiting Epistemic Markers in Confidence Estimation: Can Markers Accurately Reflect Large Language Models' Uncertainty?	May 30, 2025	Question Answering	CodeCode Available	0
Reinforcement Learning for Better Verbalized Confidence in Long-Form Generation	May 29, 2025	FormHallucination	—Unverified	0
mRAG: Elucidating the Design Space of Multi-modal Retrieval-Augmented Generation	May 29, 2025	Question AnsweringRAG	—Unverified	0
TCM-Ladder: A Benchmark for Multimodal Question Answering on Traditional Chinese Medicine	May 29, 2025	DiagnosticMultiple-choice	—Unverified	0
MedPAIR: Measuring Physicians and AI Relevance Alignment in Medical Question Answering	May 29, 2025	Medical Question AnsweringQuestion Answering	—Unverified	0
VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos	May 29, 2025	Question AnsweringVideo Generation	CodeCode Available	0
Fortune: Formula-Driven Reinforcement Learning for Symbolic Table Reasoning in Language Models	May 29, 2025	Question AnsweringReinforcement Learning (RL)	—Unverified	0
Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models	May 29, 2025	Autonomous DrivingDiagnostic	CodeCode Available	3
Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking	May 29, 2025	BenchmarkingGraph Question Answering	—Unverified	0
VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning	May 29, 2025	Anomaly DetectionDescriptive	CodeCode Available	2
Data-efficient Meta-models for Evaluation of Context-based Questions and Answers in LLMs	May 29, 2025	Dimensionality ReductionHallucination	—Unverified	0
From Chat Logs to Collective Insights: Aggregative Question Answering	May 29, 2025	ChatbotQuestion Answering	—Unverified	0
ChartMind: A Comprehensive Benchmark for Complex Real-world Multimodal Chart Question Answering	May 29, 2025	Chart Question AnsweringChart Understanding	—Unverified	0
Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint	May 29, 2025	Image CaptioningQuestion Answering	CodeCode Available	1
Let's Reason Formally: Natural-Formal Hybrid Reasoning Enhances LLM's Math Capability	May 29, 2025	MathMathematical Reasoning	—Unverified	0
QLIP: A Dynamic Quadtree Vision Prior Enhances MLLM Performance Without Retraining	May 29, 2025	Question AnsweringRepresentation Learning	CodeCode Available	0
Differential Information: An Information-Theoretic Perspective on Preference Optimization	May 29, 2025	Inductive BiasInstruction Following	—Unverified	0
Spoken question answering for visual queries	May 29, 2025	Question AnsweringVisual Question Answering (VQA)	—Unverified	0
Multi-Sourced Compositional Generalization in Visual Question Answering	May 29, 2025	Question AnsweringVisual Question Answering	CodeCode Available	0
Interpreting Chest X-rays Like a Radiologist: A Benchmark with Clinical Reasoning	May 29, 2025	DiagnosticQuestion Answering	CodeCode Available	1
KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction	May 29, 2025	Question Answering	CodeCode Available	3
Synthetic Document Question Answering in Hungarian	May 29, 2025	Optical Character Recognition (OCR)Question Answering	CodeCode Available	0
3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model	May 28, 2025	Language ModelingLanguage Modelling	—Unverified	0
EvolveSearch: An Iterative Self-Evolving Search Agent	May 28, 2025	Multi-hop Question AnsweringQuestion Answering	—Unverified	0
Enhancing Paraphrase Type Generation: The Impact of DPO and RLHF Evaluated with Human-Ranked Data	May 28, 2025	Machine TranslationParaphrase Generation	CodeCode Available	0
Read Your Own Mind: Reasoning Helps Surface Self-Confidence Signals in LLMs	May 28, 2025	Question Answering	—Unverified	0
Improving QA Efficiency with DistilBERT: Fine-Tuning and Inference on mobile Intel CPUs	May 28, 2025	Computational EfficiencyCPU	—Unverified	0
Climate Finance Bench	May 28, 2025	Logical ReasoningQuantization	CodeCode Available	0
ER-REASON: A Benchmark Dataset for LLM-Based Clinical Reasoning in the Emergency Room	May 28, 2025	Medical Question AnsweringQuestion Answering	—Unverified	0
Structured Memory Mechanisms for Stable Context Representation in Large Language Models	May 28, 2025	Question AnsweringText Generation	—Unverified	0
NegVQA: Can Vision Language Models Understand Negation?	May 28, 2025	NegationQuestion Answering	—Unverified	0
StressTest: Can YOUR Speech LM Handle the Stress?	May 28, 2025	Question AnsweringSentence	—Unverified	0
VIGNETTE: Socially Grounded Bias Evaluation for Vision-Language Models	May 28, 2025	Decision MakingQuestion Answering	CodeCode Available	0
Agent-UniRAG: A Trainable Open-Source LLM Agent Framework for Unified Retrieval-Augmented Generation Systems	May 28, 2025	Large Language ModelQuestion Answering	—Unverified	0
DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving	May 27, 2025	Autonomous DrivingDecision Making	—Unverified	0
FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering	May 27, 2025	BenchmarkingQuestion Answering	CodeCode Available	0
Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective	May 27, 2025	Language ModelingLanguage Modelling	—Unverified	0
DynamicVL: Benchmarking Multimodal Large Language Models for Dynamic City Understanding	May 27, 2025	BenchmarkingChange Detection	—Unverified	0
Silence is Not Consensus: Disrupting Agreement Bias in Multi-Agent LLMs via Catfish Agent for Clinical Decision Making	May 27, 2025	Decision MakingDiagnostic	—Unverified	0
Understand, Think, and Answer: Advancing Visual Reasoning with Large Multimodal Models	May 27, 2025	Question AnsweringVisual Reasoning	—Unverified	0
SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge	May 27, 2025	BenchmarkingMultiple-choice	—Unverified	0

Show:10 25 50

← PrevPage 4 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified