Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10451–10500 of 10817 papers

Title	Date	Tasks	Status
The combination of context information to enhance simple question answering	Oct 9, 2018	Fact SelectionKnowledge Base Question Answering	—Unverified
The Consensus Game: Language Model Generation via Equilibrium Search	Oct 13, 2023	Language ModelingLanguage Modelling	—Unverified
The Context-Dependent Additive Recurrent Neural Net	Jun 1, 2018	Language ModelingLanguage Modelling	—Unverified
The CUHK Discourse TreeBank for Chinese: Annotating Explicit Discourse Connectives for the Chinese TreeBank	May 1, 2014	Part-Of-Speech TaggingQuestion Answering	—Unverified
The curse of language biases in remote sensing VQA: the role of spatial attributes, language diversity, and the need for clear evaluation	Nov 28, 2023	DiversityQuestion Answering	—Unverified
The Dangers of trusting Stochastic Parrots: Faithfulness and Trust in Open-domain Conversational Question Answering	May 25, 2023	Conversational Question AnsweringOpen-Domain Question Answering	—Unverified
The DBOX Corpus Collection of Spoken Human-Human and Human-Machine Dialogues	May 1, 2014	Question Answering	—Unverified
The Death of Feature Engineering? BERT with Linguistic Features on SQuAD 2.0	Apr 4, 2024	Feature EngineeringMachine Reading Comprehension	—Unverified
The Development of Multimodal Lexical Resources	Dec 1, 2016	Question AnsweringVisual Question Answering (VQA)	—Unverified
The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility?	Jan 20, 2025	Data AugmentationQuestion Answering	—Unverified
The Effectiveness of Intermediate-Task Training for Code-Switched Natural Language Understanding	Jul 21, 2021	Language ModellingNatural Language Inference	—Unverified
The Effect of Natural Distribution Shift on Question Answering Models	Apr 29, 2020	ArticlesQuestion Answering	—Unverified
The Effect of Negative Sampling Strategy on Capturing Semantic Similarity in Document Embeddings	Sep 1, 2017	Answer SelectionCommunity Question Answering	—Unverified
The Empirical Impact of Data Sanitization on Language Models	Nov 8, 2024	Language ModelingLanguage Modelling	—Unverified
The Essence of Contextual Understanding in Theory of Mind: A Study on Question Answering with Story Characters	Jan 3, 2025	Question Answering	—Unverified
The Event StoryLine Corpus: A New Benchmark for Causal and Temporal Relation Extraction	Aug 1, 2017	Natural Language InferenceQuestion Answering	—Unverified
The Fire Thief Is Also the Keeper: Balancing Usability and Privacy in Prompts	Jun 20, 2024	Code GenerationQuestion Answering	—Unverified
The First Multilingual Surface Realisation Shared Task (SRâ18): Overview and Evaluation Results	Jul 1, 2018	Question AnsweringText Generation	—Unverified
The FLaReNet Strategic Language Resource Agenda	May 1, 2012	Information RetrievalMachine Translation	—Unverified
The Forgettable-Watcher Model for Video Question Answering	May 3, 2017	modelQuestion Answering	—Unverified
The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics	Feb 2, 2021	Abstractive Text SummarizationCross-Lingual Abstractive Summarization	—Unverified
The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate	Feb 9, 2024	Question AnsweringTriviaQA	—Unverified
The geometry of BERT	Feb 17, 2025	Question AnsweringText Summarization	—Unverified
The Geometry of Queries: Query-Based Innovations in Retrieval-Augmented Generation	Jul 25, 2024	Question AnsweringRAG	—Unverified
The Global Banking Standards QA Dataset (GBS-QA)	Nov 1, 2021	Question AnsweringReading Comprehension	—Unverified
The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models	Apr 21, 2025	Question AnsweringRAG	—Unverified
The Hallucinations Leaderboard -- An Open Effort to Measure Hallucinations in Large Language Models	Apr 8, 2024	Question AnsweringReading Comprehension	—Unverified
The Hallucination Tax of Reinforcement Finetuning	May 20, 2025	HallucinationMath	—Unverified
The Hidden Structure -- Improving Legal Document Understanding Through Explicit Text Formatting	May 19, 2025	document understandingOptical Character Recognition (OCR)	—Unverified
The Impact of Explanations on AI Competency Prediction in VQA	Jul 2, 2020	AI AgentLanguage Modeling	—Unverified
The Impact of Large Language Models on Task Automation in Manufacturing Services	May 14, 2025	HallucinationQuestion Answering	—Unverified
The Inductive Bias of In-Context Learning: Rethinking Pretraining Example Design	Oct 9, 2021	ChunkingIn-Context Learning	—Unverified
The JDDC Corpus: A Large-Scale Multi-Turn Chinese Dialogue Dataset for E-commerce Customer Service	Nov 22, 2019	Question AnsweringRetrieval	—Unverified
The KBGen Challenge	Aug 1, 2013	Question AnsweringText Generation	—Unverified
The Language Application Grid	May 1, 2014	Machine TranslationQuestion Answering	—Unverified
THELMA: Task Based Holistic Evaluation of Large Language Model Applications-RAG Question Answering	May 16, 2025	Language ModelingLanguage Modelling	—Unverified
The Margarita Dialogue Corpus: A Data Set for Time-Offset Interactions and Unstructured Dialogue Systems	May 1, 2020	Question AnsweringRetrieval	—Unverified
The meaning of "most" for visual question answering models	Dec 31, 2018	Question AnsweringVisual Question Answering	—Unverified
The Meaning of ``Most'' for Visual Question Answering Models	Aug 1, 2019	Question AnsweringVisual Question Answering	—Unverified
The Meta-knowledge of Causality in Biomedical Scientific Discourse	May 1, 2014	Information RetrievalNatural Language Inference	—Unverified
The Multilingual Paraphrase Database	May 1, 2014	Document SummarizationInformation Retrieval	—Unverified
The Multi-Modal Video Reasoning and Analyzing Competition	Aug 18, 2021	Action RecognitionPerson Re-Identification	—Unverified
The Myopia of Crowds: A Study of Collective Evaluation on Stack Exchange	Feb 24, 2016	Question Answering	—Unverified
The Open Framework for Developing Knowledge Base And Question Answering System	Dec 1, 2016	Question AnsweringReading Comprehension	—Unverified
The Physics of Text: Ontological Realism in Information Extraction	Jun 1, 2016	Common Sense ReasoningOpen Information Extraction	—Unverified
The price of debiasing automatic metrics in natural language evalaution	Jul 1, 2018	Abstractive Text SummarizationImage Captioning	—Unverified
The Quest for Visual Understanding: A Journey Through the Evolution of Visual Question Answering	Jan 13, 2025	Common Sense ReasoningQuestion Answering	—Unverified
The RatioLog Project: Rational Extensions of Logical Reasoning	Mar 20, 2015	BIG-bench Machine LearningCommon Sense Reasoning	—Unverified
The representation and extraction of qunatitative information	Jan 1, 2017	Information RetrievalQuestion Answering	—Unverified
The Rich Event Ontology	Aug 1, 2017	Question AnsweringSemantic Role Labeling	—Unverified

Show:10 25 50

← PrevPage 210 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified