Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9401–9425 of 10817 papers

Title	Date	Tasks	Status
Understanding Attention for Vision-and-Language Tasks	Dec 17, 2021	Image GenerationImage Retrieval	—Unverified
Understanding BLOOM: An empirical study on diverse NLP tasks	Nov 27, 2022	DecoderFew-Shot Text Classification	—Unverified
On the Calibration of Multilingual Question Answering LLMs	Nov 15, 2023	Cross-Lingual TransferData Augmentation	—Unverified
Understanding Complexity in VideoQA via Visual Program Generation	May 19, 2025	Code GenerationQuestion Answering	—Unverified
Understanding Dataset Design Choices for Multi-hop Reasoning	Apr 27, 2019	Multi-hop Question AnsweringMultiple-choice	—Unverified
Understanding Finetuning for Factual Knowledge Extraction	Jun 20, 2024	MMLUQuestion Answering	—Unverified
Understanding in Artificial Intelligence	Jan 17, 2021	Natural Language UnderstandingQuestion Answering	—Unverified
Understanding Information Storage and Transfer in Multi-modal Large Language Models	Jun 6, 2024	Factual Visual Question AnsweringModel Editing	—Unverified
Understanding Knowledge Gaps in Visual Question Answering: Implications for Gap Identification and Testing	Apr 8, 2020	DiversityQuestion Answering	—Unverified
Understanding Prior Bias and Choice Paralysis in Transformer-based Language Representation Models through Four Experimental Probes	Oct 3, 2022	Decision MakingMultiple-choice	—Unverified
Understanding Retrieval Augmentation for Long-Form Question Answering	Oct 18, 2023	FormLong Form Question Answering	—Unverified
Understanding the Behaviors of BERT in Ranking	Apr 16, 2019	Document RankingPassage Ranking	—Unverified
Understanding the Effectiveness of Very Large Language Models on Dialog Evaluation	Jan 27, 2023	Question Answering	—Unverified
Understanding the Extent to which Content Quality Metrics Measure the Information Quality of Summaries	Nov 1, 2021	Question Answering	—Unverified
Understanding the Logical and Semantic Structure of Large Documents	Sep 3, 2017	ArticlesBIG-bench Machine Learning	—Unverified
Understanding the Role of Scene Graphs in Visual Question Answering	Jan 14, 2021	Graph GenerationQuestion Answering	—Unverified
Understanding Unnatural Questions Improves Reasoning over Text	Oct 19, 2020	DiversityNatural Questions	—Unverified
Understanding Video Scenes through Text: Insights from Text-based Video Question Answering	Sep 4, 2023	Domain AdaptationQuestion Answering	—Unverified
Understand, Think, and Answer: Advancing Visual Reasoning with Large Multimodal Models	May 27, 2025	Question AnsweringVisual Reasoning	—Unverified
Unforgettable Generalization in Language Models	Sep 3, 2024	Physical Commonsense ReasoningQuestion Answering	—Unverified
UnICLAM:Contrastive Representation Learning with Adversarial Masking for Unified and Interpretable Medical Vision Question Answering	Dec 21, 2022	Data AugmentationDecision Making	—Unverified
Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks	Sep 3, 2019	Cross-Lingual Natural Language InferenceCross-Lingual Question Answering	—Unverified
Bidirectional Contrastive Split Learning for Visual Question Answering	Aug 24, 2022	Adversarial AttackBackdoor Attack	—Unverified
Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular Vision-Language Pre-training	Jan 11, 2022	DecoderImage Captioning	—Unverified
Unified Autoregressive Visual Generation and Understanding with Continuous Tokens	Mar 17, 2025	Image CaptioningImage Generation	—Unverified

Show:10 25 50

← PrevPage 377 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified