Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5951–5975 of 10817 papers

Title	Date	Tasks	Status
Conversational AI : Open Domain Question Answering and Commonsense Reasoning	Sep 18, 2019	Common Sense ReasoningOpen-Domain Question Answering	—Unverified
Looking Beyond Sentence-Level Natural Language Inference for Downstream Tasks	Sep 18, 2020	Natural Language InferenceQuestion Answering	—Unverified
Looking Beyond Sentence-Level Natural Language Inference for Question Answering and Text Summarization	Jun 1, 2021	Multiple-choiceNatural Language Inference	—Unverified
Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences	Jun 1, 2018	DiversityNatural Language Inference	—Unverified
Gaining Extra Supervision via Multi-task learning for Multi-Modal Video Question Answering	May 28, 2019	Inductive BiasMetric Learning	—Unverified
Looking for Hyponyms in Vector Space	Jun 1, 2014	Information RetrievalQuestion Answering	—Unverified
Medical visual question answering using joint self-supervised learning	Feb 25, 2023	DecoderDiversity	—Unverified
Hypo3D: Exploring Hypothetical Reasoning in 3D	Feb 2, 2025	Question AnsweringVisual Question Answering	—Unverified
Conv-CoA: Improving Open-domain Question Answering in Large Language Models via Conversational Chain-of-Action	May 28, 2024	Conversational Question AnsweringHallucination	—Unverified
Hyperlink-induced Pre-training for Passage Retrieval of Open-domain Question Answering	Nov 16, 2021	Open-Domain Question AnsweringPassage Retrieval	—Unverified
Look to the Right: Mitigating Relative Position Bias in Extractive Question Answering	Oct 26, 2022	Extractive Question-AnsweringPosition	—Unverified
LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding	Nov 2, 2024	document understandingQuestion Answering	—Unverified
ControversialQA: Exploring Controversy in Question Answering	Feb 10, 2023	Question Answering	—Unverified
A System for Building FrameNet-like Corpus for the Biomedical Domain	Apr 1, 2014	Question AnsweringSemantic Role Labeling	—Unverified
LoSparse: Structured Compression of Large Language Models based on Low-Rank and Sparse Approximation	Jun 20, 2023	DiversityModel Compression	—Unverified
A Confidence-Based Interface for Neuro-Symbolic Visual Question Answering	Nov 21, 2021	Question AnsweringTranslation	—Unverified
HyperGLM: HyperGraph for Video Scene Graph Generation and Anticipation	Nov 27, 2024	Graph GenerationQuestion Answering	—Unverified
Lost in OCR Translation? Vision-Based Approaches to Robust Document Retrieval	May 8, 2025	Computational EfficiencyOptical Character Recognition	—Unverified
Lost in Overlap: Exploring Logit-based Watermark Collision in LLMs	Mar 15, 2024	PhilosophyQuestion Answering	—Unverified
An Open-Source Software Toolkit & Benchmark Suite for the Evaluation and Adaptation of Multimodal Action Models	Jun 10, 2025	Action GenerationImage Captioning	—Unverified
Dr. Tux: A Question Answering System for Ubuntu users	Aug 25, 2018	Question Answering	—Unverified
Hyper-dimensional computing for a visual question-answering system that is trainable end-to-end	Nov 28, 2017	Question AnsweringVisual Question Answering	—Unverified
A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications	Feb 5, 2024	Prompt EngineeringQuestion Answering	—Unverified
Controlling Risk of Web Question Answering	May 24, 2019	Machine Reading ComprehensionQuestion Answering	—Unverified
Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI	Nov 4, 2024	Conformal PredictionPrediction	—Unverified

Show:10 25 50

← PrevPage 239 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified