Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 10817 papers

Title	Date	Tasks	Status	Hype
From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning	May 21, 2025	Question AnsweringReinforcement Learning (RL)	CodeCode Available	1
Exploring The Visual Feature Space for Multimodal Neural Decoding	May 21, 2025	Brain DecodingQuestion Answering	CodeCode Available	0
LiveVLM: Efficient Online Video Understanding via Streaming-Oriented KV Cache and Retrieval	May 21, 2025	Autonomous DrivingQuestion Answering	—Unverified	0
TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving	May 21, 2025	Autonomous DrivingQuestion Answering	—Unverified	0
ChartCards: A Chart-Metadata Generation Framework for Multi-Task Chart Understanding	May 21, 2025	Chart Question AnsweringChart Understanding	CodeCode Available	0
SNAP: A Benchmark for Testing the Effects of Capture Conditions on Fundamental Vision Tasks	May 21, 2025	image-classificationImage Classification	CodeCode Available	0
Single LLM, Multiple Roles: A Unified Retrieval-Augmented Generation Framework Using Role-Specific Token Optimization	May 21, 2025	Open-Domain Question AnsweringQuestion Answering	—Unverified	0
Set-LLM: A Permutation-Invariant LLM	May 21, 2025	Multiple-choiceQuestion Answering	—Unverified	0
Discovering Pathology Rationale and Token Allocation for Efficient Multimodal Pathology Reasoning	May 21, 2025	Computational EfficiencyDiagnostic	—Unverified	0
Traveling Across Languages: Benchmarking Cross-Lingual Consistency in Multimodal LLMs	May 21, 2025	BenchmarkingQuestion Answering	CodeCode Available	0
Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization	May 20, 2025	HallucinationIn-Context Learning	—Unverified	0
Visual Instruction Bottleneck Tuning	May 20, 2025	HallucinationObject Hallucination	—Unverified	0
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding	May 20, 2025	Image CaptioningQuestion Answering	CodeCode Available	0
Beyond Chains: Bridging Large Language Models and Knowledge Bases in Complex Question Answering	May 20, 2025	Knowledge Base Question AnsweringQuestion Answering	—Unverified	0
AutoRev: Automatic Peer Review System for Academic Research Papers	May 20, 2025	Question AnsweringReview Generation	—Unverified	0
Toward Effective Reinforcement Learning Fine-Tuning for Medical VQA in Vision-Language Models	May 20, 2025	Medical Visual Question AnsweringQuestion Answering	—Unverified	0
Automatic Dataset Generation for Knowledge Intensive Question Answering Tasks	May 20, 2025	Dataset GenerationQuestion Answering	—Unverified	0
QA-prompting: Improving Summarization with Large Language Models using Question-Answering	May 20, 2025	In-Context LearningQuestion Answering	CodeCode Available	0
Texts or Images? A Fine-grained Analysis on the Effectiveness of Input Representations and Models for Table Question Answering	May 20, 2025	Question Answering	CodeCode Available	0
Domain Adaptation of VLM for Soccer Video Understanding	May 20, 2025	Action ClassificationDomain Adaptation	—Unverified	0
Memory-Centric Embodied Question Answer	May 20, 2025	Embodied Question AnsweringLarge Language Model	—Unverified	0
Towards Omnidirectional Reasoning with 360-R1: A Dataset, Benchmark, and GRPO-based Method	May 20, 2025	HallucinationObject Localization	—Unverified	0
Studying the Role of Input-Neighbor Overlap in Retrieval-Augmented Language Models Training Efficiency	May 20, 2025	Language ModelingLanguage Modelling	—Unverified	0
VoQA: Visual-only Question Answering	May 20, 2025	Question Answering	CodeCode Available	0
Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation	May 20, 2025	Information RetrievalKnowledge Distillation	—Unverified	0
HausaNLP: Current Status, Challenges and Future Directions for Hausa Natural Language Processing	May 20, 2025	Language ModelingLanguage Modelling	—Unverified	0
Debating for Better Reasoning: An Unsupervised Multimodal Approach	May 20, 2025	Question AnsweringVisual Question Answering	—Unverified	0
The Hallucination Tax of Reinforcement Finetuning	May 20, 2025	HallucinationMath	—Unverified	0
YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering	May 20, 2025	Question Answering	—Unverified	0
Abacus: A Cost-Based Optimizer for Semantic Operator Systems	May 20, 2025	Question Answering	—Unverified	0
Exploring Jailbreak Attacks on LLMs through Intent Concealment and Diversion	May 20, 2025	Question AnsweringText Generation	—Unverified	0
AMAQA: A Metadata-based QA Dataset for RAG Systems	May 19, 2025	Question AnsweringRAG	—Unverified	0
Q^2Forge: Minting Competency Questions and SPARQL Queries for Question-Answering Over Knowledge Graphs	May 19, 2025	Knowledge GraphsQuestion Answering	—Unverified	0
Alignment-Augmented Speculative Decoding with Alignment Sampling and Conditional Verification	May 19, 2025	Code CompletionQuestion Answering	—Unverified	0
A Case Study of Cross-Lingual Zero-Shot Generalization for Classical Languages in LLMs	May 19, 2025	Machine Translationnamed-entity-recognition	CodeCode Available	0
Rethinking Predictive Modeling for LLM Routing: When Simple kNN Beats Complex Learned Routers	May 19, 2025	Instruction FollowingQuestion Answering	—Unverified	0
AGI-Elo: How Far Are We From Mastering A Task?	May 19, 2025	Code GenerationImage Classification	CodeCode Available	1
SurveillanceVQA-589K: A Benchmark for Comprehensive Surveillance Video-Language Understanding with Large Models	May 19, 2025	Causal InferenceDecision Making	—Unverified	0
ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models	May 19, 2025	Chart Question AnsweringChart Understanding	—Unverified	0
ORQA: A Benchmark and Foundation Model for Holistic Operating Room Modeling	May 19, 2025	Graph GenerationKnowledge Distillation	—Unverified	0
Understanding Complexity in VideoQA via Visual Program Generation	May 19, 2025	Code GenerationQuestion Answering	—Unverified	0
Reasoning-OCR: Can Large Multimodal Models Solve Complex Logical Reasoning Problems from OCR Cues?	May 19, 2025	Logical ReasoningOptical Character Recognition	CodeCode Available	1
The Hidden Structure -- Improving Legal Document Understanding Through Explicit Text Formatting	May 19, 2025	document understandingOptical Character Recognition (OCR)	—Unverified	0
KIT's Offline Speech Translation and Instruction Following Submission for IWSLT 2025	May 19, 2025	Automatic Speech RecognitionInstruction Following	—Unverified	0
Learnware of Language Models: Specialized Small Language Models Can Do Big	May 19, 2025	Privacy PreservingQuestion Answering	CodeCode Available	2
Tianyi: A Traditional Chinese Medicine all-rounder language model and its Real-World Clinical Practice	May 19, 2025	AllHallucination	—Unverified	0
RAGXplain: From Explainable Evaluation to Actionable Guidance of RAG Pipelines	May 18, 2025	Decision MakingQuestion Answering	—Unverified	0
Disambiguation in Conversational Question Answering in the Era of LLM: A Survey	May 18, 2025	BenchmarkingConversational Question Answering	—Unverified	0
GMSA: Enhancing Context Compression via Group Merging and Layer Semantic Alignment	May 18, 2025	Computational EfficiencyQuestion Answering	—Unverified	0
Enhancing Large Language Models with Reward-guided Tree Search for Knowledge Graph Question and Answering	May 18, 2025	Graph Question AnsweringKnowledge Graphs	—Unverified	0

Show:10 25 50

← PrevPage 7 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified