Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 526–550 of 10817 papers

Title	Date	Tasks	Status	Hype
A Survey on Efficient Vision-Language Models	Apr 13, 2025	Image CaptioningQuestion Answering	CodeCode Available	1
Kongzi: A Historical Large Language Model with Fact Enhancement	Apr 13, 2025	Language ModelingLanguage Modelling	—Unverified	0
TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning	Apr 13, 2025	Question Answeringreinforcement-learning	CodeCode Available	2
PathVLM-R1: A Reinforcement Learning-Driven Reasoning Model for Pathology Visual-Language Tasks	Apr 12, 2025	Computed Tomography (CT)Question Answering	—Unverified	0
NoTeS-Bank: Benchmarking Neural Transcription and Search for Scientific Notes Understanding	Apr 12, 2025	BenchmarkingDocument AI	—Unverified	0
Knowledge Graph-extended Retrieval Augmented Generation for Question Answering	Apr 11, 2025	In-Context LearningInformation Retrieval	—Unverified	0
MedHal: An Evaluation Dataset for Medical Hallucination Detection	Apr 11, 2025	HallucinationNatural Language Inference	—Unverified	0
LMM4LMM: Benchmarking and Evaluating Large-multimodal Image Generation with LMMs	Apr 11, 2025	BenchmarkingImage Generation	CodeCode Available	1
AstroLLaVA: towards the unification of astronomical data and natural language	Apr 11, 2025	AstronomyImage Captioning	—Unverified	0
VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering	Apr 11, 2025	cross-modal alignmentInformation Retrieval	—Unverified	0
Out of Style: RAG's Fragility to Linguistic Variation	Apr 11, 2025	Question AnsweringRAG	CodeCode Available	0
RAG-VR: Leveraging Retrieval-Augmented Generation for 3D Question Answering in VR Environments	Apr 11, 2025	Answer GenerationQuestion Answering	CodeCode Available	0
Towards Efficient and Robust Moment Retrieval System: A Unified Framework for Multi-Granularity Models and Temporal Reranking	Apr 11, 2025	Moment RetrievalQuestion Answering	—Unverified	0
Data Metabolism: An Efficient Data Design Schema For Vision Language Model	Apr 10, 2025	Language ModelingLanguage Modelling	—Unverified	0
Enhanced Question-Answering for Skill-based learning using Knowledge-based AI and Generative AI	Apr 10, 2025	Question Answering	—Unverified	0
Plan-and-Refine: Diverse and Comprehensive Retrieval-Augmented Generation	Apr 10, 2025	Question AnsweringRetrieval	CodeCode Available	0
TokenFocus-VQA: Enhancing Text-to-Image Alignment with Position-Aware Focus and Multi-Perspective Aggregations on LVLMs	Apr 10, 2025	Ensemble LearningPosition	—Unverified	0
On the Temporal Question-Answering Capabilities of Large Language Models Over Anonymized Data	Apr 10, 2025	Question Answering	—Unverified	0
Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos	Apr 10, 2025	Question AnsweringVideo Generation	—Unverified	0
MRD-RAG: Enhancing Medical Diagnosis with Multi-Round Retrieval-Augmented Generation	Apr 10, 2025	DiagnosticMedical Diagnosis	CodeCode Available	1
TALE: A Tool-Augmented Framework for Reference-Free Evaluation of Large Language Models	Apr 10, 2025	Question Answering	—Unverified	0
How Can Objects Help Video-Language Understanding?	Apr 10, 2025	Image CaptioningObject	—Unverified	0
Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering	Apr 10, 2025	Machine TranslationQuestion Answering	CodeCode Available	0
PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization	Apr 10, 2025	Anomaly DetectionBilevel Optimization	—Unverified	0
MDIT: A Model-free Data Interpolation Method for Diverse Instruction Tuning	Apr 9, 2025	Code GenerationDiversity	—Unverified	0

Show:10 25 50

← PrevPage 22 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified