Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4701–4725 of 10817 papers

Title	Date	Tasks	Status
CrossVQA: Scalably Generating Benchmarks for Systematically Testing VQA Generalization	Nov 1, 2021	Answer GenerationQuestion-Answer-Generation	—Unverified
Cross-topic Argument Mining from Heterogeneous Sources	Oct 1, 2018	Argument MiningDecision Making	—Unverified
Cross-Task Knowledge Transfer for Visually-Grounded Navigation	May 1, 2019	Deep Reinforcement LearningDisentanglement	—Unverified
Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training	Jul 5, 2020	DecoderQuestion Answering	—Unverified
An Attention-Based Word-Level Interaction Model: Relation Detection for Knowledge Base Question Answering	Jan 30, 2018	Knowledge Base Question AnsweringQuestion Answering	—Unverified
Cross-Task Generalization via Natural Language Crowdsourcing Instructions	Nov 16, 2021	Question Answering	—Unverified
Cross-Policy Compliance Detection via Question Answering	Sep 8, 2021	Natural Language InferenceQuestion Answering	—Unverified
Autobots Ensemble: Identifying and Extracting Adverse Drug Reaction from Tweets Using Transformer Based Pipelines	Dec 1, 2020	NERQuestion Answering	—Unverified
An Attempt to Unraveling Token Prediction Refinement and Identifying Essential Layers of Large Language Models	Jan 25, 2025	Question Answering	—Unverified
Admitting Ignorance Helps the Video Question Answering Models to Answer	Jan 15, 2025	Question AnsweringVideo Question Answering	—Unverified
ACL-Fig: A Dataset for Scientific Figure Classification	Jan 28, 2023	ClassificationQuestion Answering	—Unverified
IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models	Jun 5, 2024	Mathematical ReasoningNatural Language Inference	—Unverified
ISAAQ -- Mastering Textbook Questions with Pre-trained Transformers and Bottom-Up and Top-Down Attention	Oct 1, 2020	Multiple-choiceQuestion Answering	—Unverified
Cross-Modal Retrieval Augmentation for Multi-Modal Classification	Apr 16, 2021	ClassificationCross-Modal Retrieval	—Unverified
Cross-Modal Reasoning with Event Correlation for Video Question Answering	Dec 20, 2023	Question AnsweringVideo Question Answering	—Unverified
Cross-modal Knowledge Reasoning for Knowledge-based Visual Question Answering	Aug 31, 2020	Knowledge GraphsQuestion Answering	—Unverified
Anatomy Might Be All You Need: Forecasting What to Do During Surgery	Jan 29, 2025	AllAnatomy	—Unverified
Cross-Modal Generative Augmentation for Visual Question Answering	May 11, 2021	Data AugmentationQuestion Answering	—Unverified
Towards an Atlas of Cultural Commonsense for Machine Reasoning	Sep 11, 2020	Question Answering	—Unverified
AC/DC: LLM-based Audio Comprehension via Dialogue Continuation	Jun 12, 2025	AudioCapsAudio captioning	—Unverified
IQViC: In-context, Question Adaptive Vision Compressor for Long-term Video Understanding LMMs	Dec 13, 2024	Question AnsweringVideo Question Answering	—Unverified
iReason: Multimodal Commonsense Reasoning using Videos and Natural Language with Interpretability	Jun 25, 2021	Bias DetectionQuestion Answering	—Unverified
A Unified Query-based Generative Model for Question Generation and Question Answering	Sep 4, 2017	DecoderQuestion Answering	—Unverified
Cross-lingual Transfer of Semantic Role Labeling Models	Aug 1, 2013	Cross-Lingual TransferLanguage Modelling	—Unverified
Cross-Lingual Transfer Learning for Question Answering	Jul 13, 2019	Cross-Lingual TransferMachine Translation	—Unverified

Show:10 25 50

← PrevPage 189 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified