Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3976–4000 of 10817 papers

Title	Date	Tasks	Status	Score
HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild	Mar 7, 2024	HallucinationQuestion Answering	CodeCode Available	5
HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models	Dec 29, 2024	HallucinationObject	CodeCode Available	5
Hallucination Mitigation Prompts Long-term Video Understanding	Jun 17, 2024	Answer GenerationHallucination	CodeCode Available	5
VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos	May 29, 2025	Question AnsweringVideo Generation	CodeCode Available	5
HALO: Hallucination Analysis and Learning Optimization to Empower LLMs with Retrieval-Augmented Context for Guided Clinical Decision Making	Sep 16, 2024	Answer GenerationDecision Making	CodeCode Available	5
HalLoc: Token-level Localization of Hallucinations for Vision Language Models	Jun 12, 2025	HallucinationImage Captioning	CodeCode Available	5
ForecastTKGQuestions: A Benchmark for Temporal Question Answering and Forecasting over Temporal Knowledge Graphs	Aug 12, 2022	Knowledge GraphsQuestion Answering	CodeCode Available	5
Compositional Language Understanding with Text-based Relational Reasoning	Nov 7, 2018	Common Sense ReasoningInductive Bias	CodeCode Available	5
Hallucination Benchmark in Medical Visual Question Answering	Jan 11, 2024	HallucinationMedical Visual Question Answering	CodeCode Available	5
Harnessing the Power of Prompt-based Techniques for Generating School-Level Questions using Large Language Models	Dec 2, 2023	DescriptiveQuestion Answering	CodeCode Available	5
Compositionality as Lexical Symmetry	Jan 30, 2022	Data AugmentationInductive Bias	CodeCode Available	5
Compositional Image-Text Matching and Retrieval by Grounding Entities	May 4, 2025	Image CaptioningImage-text matching	CodeCode Available	5
HAIBU-ReMUD: Reasoning Multimodal Ultrasound Dataset and Model Bridging to General Specific Domains	Jun 9, 2025	DiagnosticQuestion Answering	CodeCode Available	5
GYM at Qur’an QA 2023 Shared Task: Multi-Task Transfer Learning for Quranic Passage Retrieval and Question Answering with Large Language Models	Dec 7, 2023	Multi-Task LearningPassage Retrieval	CodeCode Available	5
GW-MoE: Resolving Uncertainty in MoE Router with Global Workspace Theory	Jun 18, 2024	Code GenerationMathematical Problem-Solving	CodeCode Available	5
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types	Sep 14, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
HaleLab_NITK@SMM4H’22: Adaptive Learning Model for Effective Detection, Extraction and Normalization of Adverse Drug Events from Social Media Data	Oct 1, 2022	Question Answering	CodeCode Available	5
Harnessing the Power of Semi-Structured Knowledge and LLMs with Triplet-Based Prefiltering for Question Answering	Sep 1, 2024	Information RetrievalProduct Recommendation	CodeCode Available	5
Grounding Answers for Visual Questions Asked by Visually Impaired People	Feb 4, 2022	Question AnsweringVisual Question Answering	CodeCode Available	5
Grounded Graph Decoding Improves Compositional Generalization in Question Answering	Nov 5, 2021	Question Answering	CodeCode Available	5
A Memory-Network Based Solution for Multivariate Time-Series Forecasting	Sep 6, 2018	Multivariate Time Series ForecastingQuestion Answering	CodeCode Available	5
Faithful Embeddings for Knowledge Base Queries	Apr 7, 2020	Question Answering	CodeCode Available	5
Complex Sequential Question Answering: Towards Learning to Converse Over Linked Question Answer Pairs with a Knowledge Graph	Jan 31, 2018	Knowledge GraphsQuestion Answering	CodeCode Available	5
Towards Flexible Evaluation for Generative Visual Question Answering	Aug 1, 2024	DecoderGenerative Visual Question Answering	CodeCode Available	5
GUIDEQ: Framework for Guided Questioning for progressive informational collection and classification	Nov 8, 2024	Question Answeringtext-classification	CodeCode Available	5

Show:10 25 50

← PrevPage 160 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified