Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2501–2550 of 10817 papers

Title	Date	Tasks	Status
Towards Omnidirectional Reasoning with 360-R1: A Dataset, Benchmark, and GRPO-based Method	May 20, 2025	HallucinationObject Localization	—Unverified
Toward Effective Reinforcement Learning Fine-Tuning for Medical VQA in Vision-Language Models	May 20, 2025	Medical Visual Question AnsweringQuestion Answering	—Unverified
YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering	May 20, 2025	Question Answering	—Unverified
Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization	May 20, 2025	HallucinationIn-Context Learning	—Unverified
Abacus: A Cost-Based Optimizer for Semantic Operator Systems	May 20, 2025	Question Answering	—Unverified
Beyond Chains: Bridging Large Language Models and Knowledge Bases in Complex Question Answering	May 20, 2025	Knowledge Base Question AnsweringQuestion Answering	—Unverified
HausaNLP: Current Status, Challenges and Future Directions for Hausa Natural Language Processing	May 20, 2025	Language ModelingLanguage Modelling	—Unverified
AutoRev: Automatic Peer Review System for Academic Research Papers	May 20, 2025	Question AnsweringReview Generation	—Unverified
VoQA: Visual-only Question Answering	May 20, 2025	Question Answering	CodeCode Available
Automatic Dataset Generation for Knowledge Intensive Question Answering Tasks	May 20, 2025	Dataset GenerationQuestion Answering	—Unverified
Debating for Better Reasoning: An Unsupervised Multimodal Approach	May 20, 2025	Question AnsweringVisual Question Answering	—Unverified
Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation	May 20, 2025	Information RetrievalKnowledge Distillation	—Unverified
Domain Adaptation of VLM for Soccer Video Understanding	May 20, 2025	Action ClassificationDomain Adaptation	—Unverified
QA-prompting: Improving Summarization with Large Language Models using Question-Answering	May 20, 2025	In-Context LearningQuestion Answering	CodeCode Available
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding	May 20, 2025	Image CaptioningQuestion Answering	CodeCode Available
Memory-Centric Embodied Question Answer	May 20, 2025	Embodied Question AnsweringLarge Language Model	—Unverified
Visual Instruction Bottleneck Tuning	May 20, 2025	HallucinationObject Hallucination	—Unverified
Studying the Role of Input-Neighbor Overlap in Retrieval-Augmented Language Models Training Efficiency	May 20, 2025	Language ModelingLanguage Modelling	—Unverified
Alignment-Augmented Speculative Decoding with Alignment Sampling and Conditional Verification	May 19, 2025	Code CompletionQuestion Answering	—Unverified
ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models	May 19, 2025	Chart Question AnsweringChart Understanding	—Unverified
The Hidden Structure -- Improving Legal Document Understanding Through Explicit Text Formatting	May 19, 2025	document understandingOptical Character Recognition (OCR)	—Unverified
SurveillanceVQA-589K: A Benchmark for Comprehensive Surveillance Video-Language Understanding with Large Models	May 19, 2025	Causal InferenceDecision Making	—Unverified
KIT's Offline Speech Translation and Instruction Following Submission for IWSLT 2025	May 19, 2025	Automatic Speech RecognitionInstruction Following	—Unverified
Rethinking Predictive Modeling for LLM Routing: When Simple kNN Beats Complex Learned Routers	May 19, 2025	Instruction FollowingQuestion Answering	—Unverified
Tianyi: A Traditional Chinese Medicine all-rounder language model and its Real-World Clinical Practice	May 19, 2025	AllHallucination	—Unverified
Q^2Forge: Minting Competency Questions and SPARQL Queries for Question-Answering Over Knowledge Graphs	May 19, 2025	Knowledge GraphsQuestion Answering	—Unverified
Understanding Complexity in VideoQA via Visual Program Generation	May 19, 2025	Code GenerationQuestion Answering	—Unverified
AMAQA: A Metadata-based QA Dataset for RAG Systems	May 19, 2025	Question AnsweringRAG	—Unverified
ORQA: A Benchmark and Foundation Model for Holistic Operating Room Modeling	May 19, 2025	Graph GenerationKnowledge Distillation	—Unverified
A Case Study of Cross-Lingual Zero-Shot Generalization for Classical Languages in LLMs	May 19, 2025	Machine Translationnamed-entity-recognition	CodeCode Available
Table-R1: Region-based Reinforcement Learning for Table Understanding	May 18, 2025	Question Answeringreinforcement-learning	—Unverified
Disambiguation in Conversational Question Answering in the Era of LLM: A Survey	May 18, 2025	BenchmarkingConversational Question Answering	—Unverified
GMSA: Enhancing Context Compression via Group Merging and Layer Semantic Alignment	May 18, 2025	Computational EfficiencyQuestion Answering	—Unverified
RAGXplain: From Explainable Evaluation to Actionable Guidance of RAG Pipelines	May 18, 2025	Decision MakingQuestion Answering	—Unverified
Enhancing Large Language Models with Reward-guided Tree Search for Knowledge Graph Question and Answering	May 18, 2025	Graph Question AnsweringKnowledge Graphs	—Unverified
CCNU at SemEval-2025 Task 3: Leveraging Internal and External Knowledge of Large Language Models for Multilingual Hallucination Annotation	May 17, 2025	HallucinationQuestion Answering	—Unverified
TinyRS-R1: Compact Multimodal Language Model for Remote Sensing	May 17, 2025	Language ModelingLanguage Modelling	—Unverified
Recursive Question Understanding for Complex Question Answering over Heterogeneous Personal Data	May 17, 2025	Language ModelingLanguage Modelling	—Unverified
Beyond Retrieval: Joint Supervision and Multimodal Document Ranking for Textbook Question Answering	May 17, 2025	Document RankingLarge Language Model	—Unverified
BELLE: A Bi-Level Multi-Agent Reasoning Framework for Multi-Hop Question Answering	May 17, 2025	Multi-hop Question AnsweringQuestion Answering	—Unverified
AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation	May 17, 2025	Question Answering	—Unverified
Unveiling Knowledge Utilization Mechanisms in LLM-based Retrieval-Augmented Generation	May 17, 2025	Open-Domain Question AnsweringQuestion Answering	—Unverified
Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation	May 16, 2025	DecoderMulti-hop Question Answering	CodeCode Available
THELMA: Task Based Holistic Evaluation of Large Language Model Applications-RAG Question Answering	May 16, 2025	Language ModelingLanguage Modelling	—Unverified
Time-R1: Towards Comprehensive Temporal Reasoning in LLMs	May 16, 2025	Question AnsweringReinforcement Learning (RL)	CodeCode Available
TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs	May 16, 2025	BenchmarkingQuestion Answering	CodeCode Available
HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation	May 16, 2025	BenchmarkingEthics	CodeCode Available
Temporally-Grounded Language Generation: A Benchmark for Real-Time Vision-Language Models	May 16, 2025	Image CaptioningQuestion Answering	CodeCode Available
Semantic Caching of Contextual Summaries for Efficient Question-Answering with Language Models	May 16, 2025	Question AnsweringRetrieval	—Unverified
Scaling Reasoning can Improve Factuality in Large Language Models	May 16, 2025	Knowledge GraphsLarge Language Model	CodeCode Available

Show:10 25 50

← PrevPage 51 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified