Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7101–7125 of 10817 papers

Title	Date	Tasks	Status
Evidence-Enhanced Triplet Generation Framework for Hallucination Alleviation in Generative Question Answering	Aug 27, 2024	Generative Question AnsweringHallucination	—Unverified
Exploring the Robustness of Language Models for Tabular Question Answering via Attention Analysis	Jun 18, 2024	In-Context LearningQuestion Answering	—Unverified
Consecutive Question Generation with Multitask Joint Reranking and Dynamic Rationale Search	Jan 16, 2022	DiversityInformativeness	—Unverified
A Multi-Agent Framework for Mitigating Dialect Biases in Privacy Policy Question-Answering Systems	Jun 3, 2025	Question Answering	—Unverified
EvidenceMap: Learning Evidence Analysis to Unleash the Power of Small Language Models for Biomedical Question Answering	Jan 22, 2025	Answer GenerationGenerative Question Answering	—Unverified
Hallucination-minimized Data-to-answer Framework for Financial Decision-makers	Nov 9, 2023	Decision MakingHallucination	—Unverified
On the Temporal Question-Answering Capabilities of Large Language Models Over Anonymized Data	Apr 10, 2025	Question Answering	—Unverified
On the Transferability of Minimal Prediction Preserving Inputs in Question Answering	Sep 17, 2020	Adversarial RobustnessQuestion Answering	—Unverified
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models	Jul 4, 2024	HallucinationQuestion Answering	—Unverified
On the Value of Out-of-Distribution Testing: An Example of Goodhart's Law	May 19, 2020	Model SelectionQuestion Answering	—Unverified
ConQuest: Contextual Question Paraphrasing through Answer-Aware Synthetic Question Generation	Nov 1, 2021	Natural QuestionsQuestion Answering	—Unverified
OntoLearn Reloaded: A Graph-Based Algorithm for Taxonomy Induction	Jan 1, 2013	Information RetrievalQuestion Answering	—Unverified
Ontologically Grounded Multi-sense Representation Learning for Semantic Vector Space Models	May 1, 2015	Information RetrievalQuestion Answering	—Unverified
Ontology-Aware RAG for Improved Question-Answering in Cybersecurity Education	Dec 10, 2024	Question AnsweringRAG	—Unverified
Ontology-based and User-focused Automatic Text Summarization (OATS): Using COVID-19 Risk Factors as an Example	Nov 18, 2020	Question AnsweringText Summarization	—Unverified
Ontology-based question answering over corporate structured data	Nov 8, 2021	Natural Language UnderstandingQuestion Answering	—Unverified
Ontology-Based Retrieval \& Neural Approaches for BioASQ Ideal Answer Generation	Nov 1, 2018	Abstractive Text SummarizationAnswer Generation	—Unverified
EvolveSearch: An Iterative Self-Evolving Search Agent	May 28, 2025	Multi-hop Question AnsweringQuestion Answering	—Unverified
OWLViz: An Open-World Benchmark for Visual Question Answering	Mar 4, 2025	Question AnsweringVisual Question Answering	—Unverified
PaCCSS-IT: A Parallel Corpus of Complex-Simple Sentences for Automatic Text Simplification	Nov 1, 2016	Dependency ParsingDomain Adaptation	—Unverified
P\'agico: Evaluating Wikipedia-based information retrieval in Portuguese	May 1, 2012	Cultural Vocal Bursts Intensity PredictionInformation Retrieval	—Unverified
OODTE: A Differential Testing Engine for the ONNX Optimizer	May 3, 2025	object-detectionObject Detection	—Unverified
EVQAScore: Efficient Video Question Answering Data Evaluation	Nov 11, 2024	Keyword ExtractionQuestion Answering	—Unverified
Hallucination Detection in LLMs via Topological Divergence on Attention Graphs	Apr 14, 2025	HallucinationQuestion Answering	—Unverified
CONQRR: Conversational Query Rewriting for Retrieval with Reinforcement Learning	Jan 16, 2022	Conversational Question AnsweringPassage Retrieval	—Unverified

Show:10 25 50

← PrevPage 285 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified