Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 326–350 of 10817 papers

Title	Date	Tasks	Status	Hype
HausaNLP: Current Status, Challenges and Future Directions for Hausa Natural Language Processing	May 20, 2025	Language ModelingLanguage Modelling	—Unverified	0
Debating for Better Reasoning: An Unsupervised Multimodal Approach	May 20, 2025	Question AnsweringVisual Question Answering	—Unverified	0
The Hallucination Tax of Reinforcement Finetuning	May 20, 2025	HallucinationMath	—Unverified	0
YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering	May 20, 2025	Question Answering	—Unverified	0
Abacus: A Cost-Based Optimizer for Semantic Operator Systems	May 20, 2025	Question Answering	—Unverified	0
Exploring Jailbreak Attacks on LLMs through Intent Concealment and Diversion	May 20, 2025	Question AnsweringText Generation	—Unverified	0
AMAQA: A Metadata-based QA Dataset for RAG Systems	May 19, 2025	Question AnsweringRAG	—Unverified	0
Q^2Forge: Minting Competency Questions and SPARQL Queries for Question-Answering Over Knowledge Graphs	May 19, 2025	Knowledge GraphsQuestion Answering	—Unverified	0
Alignment-Augmented Speculative Decoding with Alignment Sampling and Conditional Verification	May 19, 2025	Code CompletionQuestion Answering	—Unverified	0
A Case Study of Cross-Lingual Zero-Shot Generalization for Classical Languages in LLMs	May 19, 2025	Machine Translationnamed-entity-recognition	CodeCode Available	0
Rethinking Predictive Modeling for LLM Routing: When Simple kNN Beats Complex Learned Routers	May 19, 2025	Instruction FollowingQuestion Answering	—Unverified	0
AGI-Elo: How Far Are We From Mastering A Task?	May 19, 2025	Code GenerationImage Classification	CodeCode Available	1
SurveillanceVQA-589K: A Benchmark for Comprehensive Surveillance Video-Language Understanding with Large Models	May 19, 2025	Causal InferenceDecision Making	—Unverified	0
ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models	May 19, 2025	Chart Question AnsweringChart Understanding	—Unverified	0
ORQA: A Benchmark and Foundation Model for Holistic Operating Room Modeling	May 19, 2025	Graph GenerationKnowledge Distillation	—Unverified	0
Understanding Complexity in VideoQA via Visual Program Generation	May 19, 2025	Code GenerationQuestion Answering	—Unverified	0
Reasoning-OCR: Can Large Multimodal Models Solve Complex Logical Reasoning Problems from OCR Cues?	May 19, 2025	Logical ReasoningOptical Character Recognition	CodeCode Available	1
The Hidden Structure -- Improving Legal Document Understanding Through Explicit Text Formatting	May 19, 2025	document understandingOptical Character Recognition (OCR)	—Unverified	0
KIT's Offline Speech Translation and Instruction Following Submission for IWSLT 2025	May 19, 2025	Automatic Speech RecognitionInstruction Following	—Unverified	0
Learnware of Language Models: Specialized Small Language Models Can Do Big	May 19, 2025	Privacy PreservingQuestion Answering	CodeCode Available	2
Tianyi: A Traditional Chinese Medicine all-rounder language model and its Real-World Clinical Practice	May 19, 2025	AllHallucination	—Unverified	0
RAGXplain: From Explainable Evaluation to Actionable Guidance of RAG Pipelines	May 18, 2025	Decision MakingQuestion Answering	—Unverified	0
Disambiguation in Conversational Question Answering in the Era of LLM: A Survey	May 18, 2025	BenchmarkingConversational Question Answering	—Unverified	0
GMSA: Enhancing Context Compression via Group Merging and Layer Semantic Alignment	May 18, 2025	Computational EfficiencyQuestion Answering	—Unverified	0
Enhancing Large Language Models with Reward-guided Tree Search for Knowledge Graph Question and Answering	May 18, 2025	Graph Question AnsweringKnowledge Graphs	—Unverified	0

Show:10 25 50

← PrevPage 14 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified