Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1251–1300 of 10817 papers

Title	Date	Tasks	Status	Hype
End-to-End Training of Multi-Document Reader and Retriever for Open-Domain Question Answering	Jun 9, 2021	Answer GenerationOpen-Domain Question Answering	CodeCode Available	1
End-to-End Training of Neural Retrievers for Open-Domain Question Answering	Jan 2, 2021	Natural QuestionsOpen-Domain Question Answering	CodeCode Available	1
Automated Crossword Solving	May 19, 2022	Question Answering	CodeCode Available	1
Enhanced Language Representation with Label Knowledge for Span Extraction	Nov 1, 2021	Event DetectionNER	CodeCode Available	1
Enhancing LLM's Cognition via Structurization	Jul 23, 2024	HallucinationHallucination Evaluation	CodeCode Available	1
Enhancing Multi-modal and Multi-hop Question Answering via Structured Knowledge and Unified Retrieval-Generation	Dec 16, 2022	Answer GenerationDecoder	CodeCode Available	1
Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs	Feb 17, 2024	Knowledge GraphsMulti-hop Question Answering	CodeCode Available	1
Discourse Analysis via Questions and Answers: Parsing Dependency Structures of Questions Under Discussion	Oct 12, 2022	Dependency ParsingQuestion Answering	CodeCode Available	1
Anchor-based Large Language Models	Feb 12, 2024	Computational EfficiencyDecoder	CodeCode Available	1
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation	Jan 6, 2025	Language Model EvaluationLanguage Modeling	CodeCode Available	1
Entailment Tree Explanations via Iterative Retrieval-Generation Reasoner	May 18, 2022	DecoderQuestion Answering	CodeCode Available	1
Entity-Based Knowledge Conflicts in Question Answering	Sep 10, 2021	HallucinationOut-of-Distribution Generalization	CodeCode Available	1
Distantly-Supervised Dense Retrieval Enables Open-Domain Question Answering without Evidence Annotation	Nov 1, 2021	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1
Dynamic Semantic Graph Construction and Reasoning for Explainable Multi-hop Science Question Answering	May 25, 2021	Abstract Meaning RepresentationARC	CodeCode Available	1
Attention-Based Context Aware Reasoning for Situation Recognition	Jun 1, 2020	Action RecognitionFine-grained Action Recognition	CodeCode Available	1
DialogLM: Pre-trained Model for Long Dialogue Understanding and Summarization	Sep 6, 2021	abstractive question answeringDenoising	CodeCode Available	1
ESTER: A Machine Reading Comprehension Dataset for Event Semantic Relation Reasoning	Apr 16, 2021	Machine Reading ComprehensionNatural Language Queries	CodeCode Available	1
DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs	Jun 24, 2024	Question AnsweringRetrieval	CodeCode Available	1
Ethics Sheets for AI Tasks	Jul 2, 2021	ArticlesEmotion Recognition	CodeCode Available	1
Automatically Generating Cause-and-Effect Questions from Passages	Apr 1, 2021	Question AnsweringQuestion Generation	CodeCode Available	1
Dialog Inpainting: Turning Documents into Dialogs	May 18, 2022	Conversational Question AnsweringQuestion Answering	CodeCode Available	1
DialSim: A Real-Time Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents	Jun 19, 2024	Dialogue UnderstandingQuestion Answering	CodeCode Available	1
Detecting Hate Speech in Multi-modal Memes	Dec 29, 2020	Binary ClassificationHate Speech Detection	CodeCode Available	1
Evaluating language models as risk scores	Jul 19, 2024	Multiple-choiceQuestion Answering	CodeCode Available	1
Visual Grounding Methods for VQA are Working for the Wrong Reasons!	Apr 12, 2020	Question AnsweringVisual Grounding	CodeCode Available	1
LLM-Coordination: Evaluating and Analyzing Multi-agent Coordination Abilities in Large Language Models	Oct 5, 2023	Common Sense ReasoningMultiple-choice	CodeCode Available	1
Development and bilingual evaluation of Japanese medical large language model within reasonably low computational resources	Sep 18, 2024	GPULanguage Modeling	CodeCode Available	1
Automatic Evaluation of Attribution by Large Language Models	May 10, 2023	Fact CheckingLanguage Modeling	CodeCode Available	1
Advances of Transformer-Based Models for News Headline Generation	Jul 9, 2020	Headline Generationnamed-entity-recognition	CodeCode Available	1
Benchmarking Knowledge Boundary for Large Language Models: A Different Perspective on Model Evaluation	Feb 18, 2024	BenchmarkingLanguage Modeling	CodeCode Available	1
BanglaBERT: Language Model Pretraining and Benchmarks for Low-Resource Language Understanding Evaluation in Bangla	Jan 1, 2021	Document ClassificationLanguage Modeling	CodeCode Available	1
Event Extraction as Question Generation and Answering	Jul 10, 2023	Event ExtractionQuestion Answering	CodeCode Available	1
OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge	May 31, 2019	object-detectionObject Detection	CodeCode Available	1
Benchmarking Geospatial Question Answering Engines using the Dataset GeoQuestions1089	Nov 6, 2023	BenchmarkingKnowledge Base Question Answering	CodeCode Available	1
Example-Based Named Entity Recognition	Aug 24, 2020	Few-Shot Learningnamed-entity-recognition	CodeCode Available	1
EXAMS: A Multi-Subject High School Examinations Dataset for Cross-Lingual and Multilingual Question Answering	Nov 5, 2020	Question AnsweringTransfer Learning	CodeCode Available	1
Explainable Conversational Question Answering over Heterogeneous Sources via Iterative Graph Neural Networks	May 2, 2023	Conversational Question AnsweringQuestion Answering	CodeCode Available	1
Explainable Neural Computation via Stack Neural Module Networks	Jul 23, 2018	Decision MakingQuestion Answering	CodeCode Available	1
Explaining Autonomous Driving Actions with Visual Question Answering	Jul 19, 2023	Autonomous DrivingAutonomous Vehicles	CodeCode Available	1
Explaining NLP Models via Minimal Contrastive Editing (MiCE)	Dec 27, 2020	counterfactualMultiple-choice	CodeCode Available	1
BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models	Sep 23, 2023	Code CompletionHallucination	CodeCode Available	1
Exploiting Abstract Meaning Representation for Open-Domain Question Answering	May 26, 2023	Abstract Meaning RepresentationDiversity	CodeCode Available	1
Exploring and Predicting Transferability across NLP Tasks	May 2, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
Exploring Dual Encoder Architectures for Question Answering	Apr 14, 2022	Information RetrievalQuestion Answering	CodeCode Available	1
DeVLBert: Learning Deconfounded Visio-Linguistic Representations	Aug 16, 2020	Image RetrievalQuestion Answering	CodeCode Available	1
Exploring Sequence-to-Sequence Models for SPARQL Pattern Composition	Oct 21, 2020	Machine TranslationQuestion Answering	CodeCode Available	1
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies	Jan 6, 2021	Question AnsweringStrategyQA	CodeCode Available	1
Exploring the State of the Art in Legal QA Systems	Apr 13, 2023	ArticlesNatural Language Understanding	CodeCode Available	1
Describe Anything Model for Visual Question Answering on Text-rich Images	Jul 16, 2025	DescriptiveLanguage Modeling	CodeCode Available	1
Dense Passage Retrieval for Open-Domain Question Answering	Apr 10, 2020	Open-Domain Question AnsweringPassage Retrieval	CodeCode Available	1

Show:10 25 50

← PrevPage 26 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified