Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5976–6000 of 10817 papers

Title	Date	Tasks	Status
An Improved Traditional Chinese Evaluation Suite for Foundation Model	Mar 4, 2024	Multiple-choiceQuestion Answering	—Unverified
Is your benchmark truly adversarial? AdvScore: Evaluating Human-Grounded Adversarialness	Jun 24, 2024	Language ModelingLanguage Modelling	—Unverified
Low Resource Dependency Parsing: Cross-lingual Parameter Sharing in a Neural Network Parser	Jul 1, 2015	Dependency ParsingMachine Translation	—Unverified
A Comprehensive Study on Fine-Tuning Large Language Models for Medical Question Answering Using Classification Models and Comparative Analysis	Jan 27, 2025	Medical Question AnsweringQuestion Answering	—Unverified
Low-Resource Semantic Role Labeling	Jun 1, 2014	Information RetrievalMachine Translation	—Unverified
3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model	May 28, 2025	Language ModelingLanguage Modelling	—Unverified
Compositional Physical Reasoning of Objects and Events from Videos	Aug 2, 2024	counterfactualQuestion Answering	—Unverified
LRRA:A Transparent Neural-Symbolic Reasoning Framework for Real-World Visual Question Answering	Aug 1, 2021	Question AnsweringVisual Question Answering	—Unverified
Out of Sight But Not Out of Mind: An Answer Set Programming Based Online Abduction Framework for Visual Sensemaking in Autonomous Driving	May 31, 2019	Autonomous DrivingQuestion Answering	—Unverified
Learning to Generate Questions by Learning What not to Generate	Feb 27, 2019	Multi-Task LearningQuestion Answering	—Unverified
DISLOG: A logic-based language for processing discourse structures	May 1, 2012	Machine TranslationQuestion Answering	—Unverified
Learning to Focus when Ranking Answers	Aug 8, 2018	Feature EngineeringLearning-To-Rank	—Unverified
Learning to Extract Attribute Value from Product via Question Answering: A Multi-task Approach	Aug 20, 2020	AttributeAttribute Value Extraction	—Unverified
Benchmarking Multimodal LLMs on Recognition and Understanding over Chemical Tables	Jun 13, 2025	BenchmarkingDescriptive	—Unverified
Learning to Disambiguate by Asking Discriminative Questions	Aug 9, 2017	BenchmarkingImage Captioning	—Unverified
Learning-to-Defer for Extractive Question Answering	Oct 21, 2024	Computational EfficiencyDecision Making	—Unverified
Disentangling Online Chats with DAG-Structured LSTMs	Jun 16, 2021	Conversation DisentanglementDisentanglement	—Unverified
Learning to Decompose Compound Questions with Reinforcement Learning	May 1, 2019	Question Answeringreinforcement-learning	—Unverified
Learning to Coordinate Multiple Reinforcement Learning Agents for Diverse Query Reformulation	Sep 27, 2018	DiversityQuestion Answering	—Unverified
Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA	Jun 27, 2024	General KnowledgeQuestion Answering	—Unverified
ADVISE: Symbolism and External Knowledge for Decoding Advertisements	Nov 17, 2017	ClusteringImage Captioning	—Unverified
Learning to Compute Word Embeddings On the Fly	Jun 1, 2017	Language ModelingLanguage Modelling	—Unverified
Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering	Sep 11, 2024	Question AnsweringVisual Question Answering	—Unverified
Learning to Compose Diversified Prompts for Image Emotion Classification	Jan 26, 2022	ClassificationEmotion Classification	—Unverified
Disease Identification From Unstructured User Input	May 1, 2019	General ClassificationQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 240 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified