Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3951–3975 of 10817 papers

Title	Date	Tasks	Status	Score
Hallucination Benchmark in Medical Visual Question Answering	Jan 11, 2024	HallucinationMedical Visual Question Answering	CodeCode Available	5
Hallucination Mitigation Prompts Long-term Video Understanding	Jun 17, 2024	Answer GenerationHallucination	CodeCode Available	5
HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild	Mar 7, 2024	HallucinationQuestion Answering	CodeCode Available	5
Composition Vision-Language Understanding via Segment and Depth Anything Model	Jun 7, 2024	Question AnsweringVisual Question Answering (VQA)	CodeCode Available	5
Compositional Task-Oriented Parsing as Abstractive Question Answering	May 4, 2022	abstractive question answeringQuestion Answering	CodeCode Available	5
CLIFT: Analysing Natural Distribution Shift on Question Answering Models in Clinical Domain	Oct 19, 2023	Question Answering	CodeCode Available	5
HAIBU-ReMUD: Reasoning Multimodal Ultrasound Dataset and Model Bridging to General Specific Domains	Jun 9, 2025	DiagnosticQuestion Answering	CodeCode Available	5
Towards Answering Climate Questionnaires from Unstructured Climate Reports	Jan 11, 2023	Question Answeringtext-classification	CodeCode Available	5
FlowQA: Grasping Flow in History for Conversational Machine Comprehension	Oct 6, 2018	Question AnsweringReading Comprehension	CodeCode Available	5
UQA: Corpus for Urdu Question Answering	May 2, 2024	Multilingual NLPQuestion Answering	CodeCode Available	5
GW-MoE: Resolving Uncertainty in MoE Router with Global Workspace Theory	Jun 18, 2024	Code GenerationMathematical Problem-Solving	CodeCode Available	5
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types	Sep 14, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
FM2DS: Few-Shot Multimodal Multihop Data Synthesis with Knowledge Distillation for Question Answering	Dec 9, 2024	Knowledge DistillationQuestion Answering	CodeCode Available	5
Climate Finance Bench	May 28, 2025	Logical ReasoningQuantization	CodeCode Available	5
Focal Visual-Text Attention for Memex Question Answering	Dec 14, 2018	Memex Question AnsweringQuestion Answering	CodeCode Available	5
Focal Visual-Text Attention for Visual Question Answering	Jun 5, 2018	Memex Question AnsweringQuestion Answering	CodeCode Available	5
GYM at Qur’an QA 2023 Shared Task: Multi-Task Transfer Learning for Quranic Passage Retrieval and Question Answering with Large Language Models	Dec 7, 2023	Multi-Task LearningPassage Retrieval	CodeCode Available	5
GUIDEQ: Framework for Guided Questioning for progressive informational collection and classification	Nov 8, 2024	Question Answeringtext-classification	CodeCode Available	5
Compositional Language Understanding with Text-based Relational Reasoning	Nov 7, 2018	Common Sense ReasoningInductive Bias	CodeCode Available	5
Guiding Extractive Summarization with Question-Answering Rewards	Apr 4, 2019	Extractive SummarizationQuestion Answering	CodeCode Available	5
HaleLab_NITK@SMM4H’22: Adaptive Learning Model for Effective Detection, Extraction and Normalization of Adverse Drug Events from Social Media Data	Oct 1, 2022	Question Answering	CodeCode Available	5
Compositionality as Lexical Symmetry	Jan 30, 2022	Data AugmentationInductive Bias	CodeCode Available	5
Compositional Image-Text Matching and Retrieval by Grounding Entities	May 4, 2025	Image CaptioningImage-text matching	CodeCode Available	5
Faithful Embeddings for Knowledge Base Queries	Apr 7, 2020	Question Answering	CodeCode Available	5
Grounded Graph Decoding Improves Compositional Generalization in Question Answering	Nov 5, 2021	Question Answering	CodeCode Available	5

Show:10 25 50

← PrevPage 159 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified