Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8051–8075 of 10817 papers

Title	Date	Tasks	Status
Recent Progress in Deep Learning for NLP	Jun 1, 2016	Deep LearningMachine Translation	—Unverified
Recent, rapid advancement in visual question answering architecture: a review	Mar 2, 2022	Question AnsweringVisual Question Answering	—Unverified
Receptivity of an AI Cognitive Assistant by the Radiology Community: A Report on Data Collected at RSNA	Sep 13, 2020	Multiple-choiceQuestion Answering	—Unverified
RECIPE: Applying Open Domain Question Answering to Privacy Policies	Jul 1, 2018	DescriptiveOpen-Domain Question Answering	—Unverified
Recipe Instruction Semantics Corpus (RISeC): Resolving Semantic Structure and Zero Anaphora in Recipes	Dec 1, 2020	Question AnsweringReading Comprehension	—Unverified
Reciprocal Attention Fusion for Visual Question Answering	May 11, 2018	ObjectQuestion Answering	—Unverified
Assessing the Robustness of Visual Question Answering Models	Nov 30, 2019	Question AnsweringVisual Question Answering	—Unverified
Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization	May 20, 2025	HallucinationIn-Context Learning	—Unverified
GLoMo: Unsupervised Learning of Transferable Relational Graphs	Dec 1, 2018	image-classificationImage Classification	—Unverified
ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving	Jun 9, 2025	Autonomous DrivingImitation Learning	—Unverified
Global Thread-Level Inference for Comment Classification in Community Question Answering	Nov 20, 2019	Community Question AnsweringGeneral Classification	—Unverified
Recognition of Polish Temporal Expressions	Sep 1, 2015	Question Answering	—Unverified
A Case Study Towards Turkish Paraphrase Alignment	Aug 1, 2013	Machine TranslationNatural Language Inference	—Unverified
Assessing the Robustness of Retrieval-Augmented Generation Systems in K-12 Educational Question Answering with Knowledge Discrepancies	Dec 12, 2024	Question AnsweringRAG	—Unverified
Global Inference to Chinese Temporal Relation Extraction	Dec 1, 2016	Question AnsweringRelation	—Unverified
Recognizing Multimodal Entailment	Aug 1, 2021	Graph LearningQuestion Answering	—Unverified
Reinforcement Learning of Question-Answering Dialogue Policies for Virtual Museum Guides	Jul 1, 2012	Dialogue ManagementQuestion Answering	—Unverified
Recognizing Textual Entailment Using Probabilistic Inference	Sep 1, 2015	Information RetrievalNatural Language Inference	—Unverified
From Easy to Hard: Two-stage Selector and Reader for Multi-hop Question Answering	May 24, 2022	Multi-hop Question AnsweringQuestion Answering	—Unverified
Recommending Root-Cause and Mitigation Steps for Cloud Incidents using Large Language Models	Jan 10, 2023	ManagementQuestion Answering	—Unverified
From Entity Linking to Question Answering -- Recent Progress on Semantic Grounding Tasks	Dec 1, 2016	document understandingEntity Linking	—Unverified
Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models	Apr 18, 2024	GSM8KMMLU	—Unverified
RECONSIDER: Improved Re-Ranking using Span-Focused Cross-Attention for Open Domain Question Answering	Jun 1, 2021	Machine Reading ComprehensionNatural Questions	—Unverified
Relational Graph Representation Learning for Open-Domain Question Answering	Oct 18, 2019	Graph Neural NetworkGraph Representation Learning	—Unverified
Assessing The Potential Of Mid-Sized Language Models For Clinical QA	Apr 24, 2024	MedQAQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 323 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified