Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5951–6000 of 10817 papers

Title	Date	Tasks	Status
Learning to Order Natural Language Texts	Aug 1, 2013	Concept-To-Text GenerationDocument Summarization	—Unverified
Looking Beyond Sentence-Level Natural Language Inference for Downstream Tasks	Sep 18, 2020	Natural Language InferenceQuestion Answering	—Unverified
Learning to Navigate Wikipedia by Taking Random Walks	Oct 31, 2022	Fact VerificationNavigate	—Unverified
Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences	Jun 1, 2018	DiversityNatural Language Inference	—Unverified
Learning to Model Multilingual Unrestricted Coreference in OntoNotes	Jul 1, 2012	Coreference ResolutionMachine Translation	—Unverified
Distilling Salient Reviews with Zero Labels	May 1, 2022	Question Answering	—Unverified
Learning to Map Natural Language Statements into Knowledge Base Representations for Knowledge Base Construction	May 1, 2018	Graph EmbeddingKnowledge Base Construction	—Unverified
Learning to Make Inferences in a Semantic Parsing Task	Jan 1, 2016	Machine TranslationNatural Language Inference	—Unverified
Distilling an End-to-End Voice Assistant Without Instruction Training Data	Oct 3, 2024	Question Answering	—Unverified
Learning to Jointly Predict Ellipsis and Comparison Structures	Aug 1, 2016	Question AnsweringReading Comprehension	—Unverified
Look to the Right: Mitigating Relative Position Bias in Extractive Question Answering	Oct 26, 2022	Extractive Question-AnsweringPosition	—Unverified
LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding	Nov 2, 2024	document understandingQuestion Answering	—Unverified
Benchmarking Poisoning Attacks against Retrieval-Augmented Generation	May 24, 2025	BenchmarkingQuestion Answering	—Unverified
An In-Context Schema Understanding Method for Knowledge Base Question Answering	Oct 22, 2023	In-Context LearningKnowledge Base Question Answering	—Unverified
Learning to Interactively Learn and Assist	Jun 24, 2019	Imitation LearningQuestion Answering	—Unverified
Learning to Initialize: Can Meta Learning Improve Cross-task Generalization in Prompt Tuning?	Feb 16, 2023	Few-Shot LearningLanguage Modeling	—Unverified
Learning to Inference Adaptively for Multimodal Large Language Models	Mar 13, 2025	HallucinationQuestion Answering	—Unverified
Learning to Imagine: Integrating Counterfactual Thinking in Neural Discrete Reasoning	May 1, 2022	counterfactualQuestion Answering	—Unverified
DistilDoc: Knowledge Distillation for Visually-Rich Document Applications	Jun 12, 2024	document-image-classificationDocument Image Classification	—Unverified
Learning to Identify Follow-Up Questions in Conversational Question Answering	Jul 1, 2020	Conversational Question AnsweringQuestion Answering	—Unverified
Learning to Generate Word Representations using Subword Information	Aug 1, 2018	ChunkingLanguage Modeling	—Unverified
Learning to Generate Questions by Recovering Answer-containing Sentences	Jan 1, 2021	Machine Reading ComprehensionQuestion Answering	—Unverified
Learning to Generate Questions by Learning to Recover Answer-containing Sentences	Aug 1, 2021	Question Answering	—Unverified
Distantly Supervised Transformers For E-Commerce Product QA	Apr 7, 2021	Question Answering	—Unverified
Comparison of Open-Source and Proprietary LLMs for Machine Reading Comprehension: A Practical Analysis for Industrial Applications	Jun 19, 2024	BenchmarkingMachine Reading Comprehension	—Unverified
An Improved Traditional Chinese Evaluation Suite for Foundation Model	Mar 4, 2024	Multiple-choiceQuestion Answering	—Unverified
Is your benchmark truly adversarial? AdvScore: Evaluating Human-Grounded Adversarialness	Jun 24, 2024	Language ModelingLanguage Modelling	—Unverified
Low Resource Dependency Parsing: Cross-lingual Parameter Sharing in a Neural Network Parser	Jul 1, 2015	Dependency ParsingMachine Translation	—Unverified
A Comprehensive Study on Fine-Tuning Large Language Models for Medical Question Answering Using Classification Models and Comparative Analysis	Jan 27, 2025	Medical Question AnsweringQuestion Answering	—Unverified
Low-Resource Semantic Role Labeling	Jun 1, 2014	Information RetrievalMachine Translation	—Unverified
3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model	May 28, 2025	Language ModelingLanguage Modelling	—Unverified
Compositional Physical Reasoning of Objects and Events from Videos	Aug 2, 2024	counterfactualQuestion Answering	—Unverified
LRRA:A Transparent Neural-Symbolic Reasoning Framework for Real-World Visual Question Answering	Aug 1, 2021	Question AnsweringVisual Question Answering	—Unverified
Out of Sight But Not Out of Mind: An Answer Set Programming Based Online Abduction Framework for Visual Sensemaking in Autonomous Driving	May 31, 2019	Autonomous DrivingQuestion Answering	—Unverified
Learning to Generate Questions by Learning What not to Generate	Feb 27, 2019	Multi-Task LearningQuestion Answering	—Unverified
DISLOG: A logic-based language for processing discourse structures	May 1, 2012	Machine TranslationQuestion Answering	—Unverified
Learning to Focus when Ranking Answers	Aug 8, 2018	Feature EngineeringLearning-To-Rank	—Unverified
Learning to Extract Attribute Value from Product via Question Answering: A Multi-task Approach	Aug 20, 2020	AttributeAttribute Value Extraction	—Unverified
Benchmarking Multimodal LLMs on Recognition and Understanding over Chemical Tables	Jun 13, 2025	BenchmarkingDescriptive	—Unverified
Learning to Disambiguate by Asking Discriminative Questions	Aug 9, 2017	BenchmarkingImage Captioning	—Unverified
Learning-to-Defer for Extractive Question Answering	Oct 21, 2024	Computational EfficiencyDecision Making	—Unverified
Disentangling Online Chats with DAG-Structured LSTMs	Jun 16, 2021	Conversation DisentanglementDisentanglement	—Unverified
Learning to Decompose Compound Questions with Reinforcement Learning	May 1, 2019	Question Answeringreinforcement-learning	—Unverified
Learning to Coordinate Multiple Reinforcement Learning Agents for Diverse Query Reformulation	Sep 27, 2018	DiversityQuestion Answering	—Unverified
Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA	Jun 27, 2024	General KnowledgeQuestion Answering	—Unverified
ADVISE: Symbolism and External Knowledge for Decoding Advertisements	Nov 17, 2017	ClusteringImage Captioning	—Unverified
Learning to Compute Word Embeddings On the Fly	Jun 1, 2017	Language ModelingLanguage Modelling	—Unverified
Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering	Sep 11, 2024	Question AnsweringVisual Question Answering	—Unverified
Learning to Compose Diversified Prompts for Image Emotion Classification	Jan 26, 2022	ClassificationEmotion Classification	—Unverified
Disease Identification From Unstructured User Input	May 1, 2019	General ClassificationQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 120 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified