Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–550 of 10817 papers

Title	Date	Tasks	Status	Hype
Hadamard product in deep learning: Introduction, Advances and Challenges	Apr 17, 2025	Computational EfficiencyDeep Learning	—Unverified	0
Bridging the Semantic Gaps: Improving Medical VQA Consistency with LLM-Augmented Question Sets	Apr 16, 2025	DiversityMedical Visual Question Answering	—Unverified	0
Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization	Apr 16, 2025	HallucinationQuestion Answering	—Unverified	0
Instruction-augmented Multimodal Alignment for Image-Text and Element Matching	Apr 16, 2025	Image AugmentationImage Generation	—Unverified	0
LLM-as-a-Judge: Reassessing the Performance of LLMs in Extractive QA	Apr 16, 2025	Question AnsweringReading Comprehension	CodeCode Available	0
Mitigating LLM Hallucinations with Knowledge Graphs: A Case Study	Apr 16, 2025	Knowledge GraphsQuestion Answering	—Unverified	0
AskQE: Question Answering as Automatic Evaluation for Machine Translation	Apr 15, 2025	Machine TranslationQuestion Answering	—Unverified	0
Streamlining Biomedical Research with Specialized LLMs	Apr 15, 2025	Decision MakingDialogue Generation	—Unverified	0
Benchmarking Biopharmaceuticals Retrieval-Augmented Generation Evaluation	Apr 15, 2025	BenchmarkingQuestion Answering	—Unverified	0
QAVA: Query-Agnostic Visual Attack to Large Vision-Language Models	Apr 15, 2025	Question AnsweringVisual Question Answering	CodeCode Available	0
LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation	Apr 15, 2025	Image CaptioningQuestion Answering	—Unverified	0
RankAlign: A Ranking View of the Generator-Validator Gap in Large Language Models	Apr 15, 2025	Question Answering	CodeCode Available	0
Ai2 Scholar QA: Organized Literature Synthesis with Attribution	Apr 15, 2025	Question AnsweringRetrieval	CodeCode Available	3
Exploring the Role of Knowledge Graph-Based RAG in Japanese Medical Question Answering with Small-Scale LLMs	Apr 15, 2025	Medical Question AnsweringQuestion Answering	—Unverified	0
From Misleading Queries to Accurate Answers: A Three-Stage Fine-Tuning Method for LLMs	Apr 15, 2025	HallucinationQuestion Answering	—Unverified	0
Reasoning Court: Combining Reasoning, Action, and Judgment for Multi-Hop Reasoning	Apr 14, 2025	Fact VerificationQuestion Answering	—Unverified	0
Constructing Micro Knowledge Graphs from Technical Support Documents	Apr 14, 2025	Knowledge GraphsQuestion Answering	—Unverified	0
VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents	Apr 14, 2025	Question AnsweringRAG	—Unverified	0
Hallucination Detection in LLMs via Topological Divergence on Attention Graphs	Apr 14, 2025	HallucinationQuestion Answering	—Unverified	0
Building Trustworthy Multimodal AI: A Review of Fairness, Transparency, and Ethics in Vision-Language Tasks	Apr 14, 2025	EthicsFairness	—Unverified	0
MMKB-RAG: A Multi-Modal Knowledge-Based Retrieval-Augmented Generation Framework	Apr 14, 2025	Question AnsweringRAG	—Unverified	0
Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding	Apr 14, 2025	Question Answering	CodeCode Available	5
ReasonDrive: Efficient Visual Question Answering for Autonomous Vehicles with Reasoning-Enhanced Small Vision-Language Models	Apr 14, 2025	Autonomous DrivingAutonomous Vehicles	CodeCode Available	1
See or Recall: A Sanity Check for the Role of Vision in Solving Visualization Question Answer Tasks with Multimodal LLMs	Apr 14, 2025	Data VisualizationQuestion Answering	—Unverified	0
HD-RAG: Retrieval-Augmented Generation for Hybrid Documents Containing Text and Hierarchical Tables	Apr 13, 2025	Question AnsweringRAG	—Unverified	0
A Survey on Efficient Vision-Language Models	Apr 13, 2025	Image CaptioningQuestion Answering	CodeCode Available	1
Kongzi: A Historical Large Language Model with Fact Enhancement	Apr 13, 2025	Language ModelingLanguage Modelling	—Unverified	0
TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning	Apr 13, 2025	Question Answeringreinforcement-learning	CodeCode Available	2
PathVLM-R1: A Reinforcement Learning-Driven Reasoning Model for Pathology Visual-Language Tasks	Apr 12, 2025	Computed Tomography (CT)Question Answering	—Unverified	0
NoTeS-Bank: Benchmarking Neural Transcription and Search for Scientific Notes Understanding	Apr 12, 2025	BenchmarkingDocument AI	—Unverified	0
Knowledge Graph-extended Retrieval Augmented Generation for Question Answering	Apr 11, 2025	In-Context LearningInformation Retrieval	—Unverified	0
MedHal: An Evaluation Dataset for Medical Hallucination Detection	Apr 11, 2025	HallucinationNatural Language Inference	—Unverified	0
LMM4LMM: Benchmarking and Evaluating Large-multimodal Image Generation with LMMs	Apr 11, 2025	BenchmarkingImage Generation	CodeCode Available	1
AstroLLaVA: towards the unification of astronomical data and natural language	Apr 11, 2025	AstronomyImage Captioning	—Unverified	0
VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering	Apr 11, 2025	cross-modal alignmentInformation Retrieval	—Unverified	0
Out of Style: RAG's Fragility to Linguistic Variation	Apr 11, 2025	Question AnsweringRAG	CodeCode Available	0
RAG-VR: Leveraging Retrieval-Augmented Generation for 3D Question Answering in VR Environments	Apr 11, 2025	Answer GenerationQuestion Answering	CodeCode Available	0
Towards Efficient and Robust Moment Retrieval System: A Unified Framework for Multi-Granularity Models and Temporal Reranking	Apr 11, 2025	Moment RetrievalQuestion Answering	—Unverified	0
Data Metabolism: An Efficient Data Design Schema For Vision Language Model	Apr 10, 2025	Language ModelingLanguage Modelling	—Unverified	0
Enhanced Question-Answering for Skill-based learning using Knowledge-based AI and Generative AI	Apr 10, 2025	Question Answering	—Unverified	0
Plan-and-Refine: Diverse and Comprehensive Retrieval-Augmented Generation	Apr 10, 2025	Question AnsweringRetrieval	CodeCode Available	0
TokenFocus-VQA: Enhancing Text-to-Image Alignment with Position-Aware Focus and Multi-Perspective Aggregations on LVLMs	Apr 10, 2025	Ensemble LearningPosition	—Unverified	0
On the Temporal Question-Answering Capabilities of Large Language Models Over Anonymized Data	Apr 10, 2025	Question Answering	—Unverified	0
Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos	Apr 10, 2025	Question AnsweringVideo Generation	—Unverified	0
MRD-RAG: Enhancing Medical Diagnosis with Multi-Round Retrieval-Augmented Generation	Apr 10, 2025	DiagnosticMedical Diagnosis	CodeCode Available	1
TALE: A Tool-Augmented Framework for Reference-Free Evaluation of Large Language Models	Apr 10, 2025	Question Answering	—Unverified	0
How Can Objects Help Video-Language Understanding?	Apr 10, 2025	Image CaptioningObject	—Unverified	0
Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering	Apr 10, 2025	Machine TranslationQuestion Answering	CodeCode Available	0
PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization	Apr 10, 2025	Anomaly DetectionBilevel Optimization	—Unverified	0
MDIT: A Model-free Data Interpolation Method for Diverse Instruction Tuning	Apr 9, 2025	Code GenerationDiversity	—Unverified	0

Show:10 25 50

← PrevPage 11 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified