Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3251–3275 of 10817 papers

Title	Date	Tasks	Status
End-to-End Answer Chunk Extraction and Ranking for Reading Comprehension	Oct 31, 2016	Question AnsweringReading Comprehension	—Unverified
End-to-end argumentation knowledge graph construction	Sep 13, 2021	16kFake News Detection	—Unverified
Bridging the Preference Gap between Retrievers and LLMs	Jan 13, 2024	Question AnsweringRAG	—Unverified
End-to-end Concept Word Detection for Video Captioning, Retrieval, and Question Answering	Oct 10, 2016	Language ModelingLanguage Modelling	—Unverified
Bilingually-constrained Synthetic Data for Implicit Discourse Relation Recognition	Nov 1, 2016	Domain AdaptationMachine Translation	—Unverified
End-to-End Entity Resolution and Question Answering Using Differentiable Knowledge Graphs	Sep 13, 2021	Entity ResolutionKnowledge Graphs	—Unverified
Bridging the Training-Inference Gap for Dense Phrase Retrieval	Oct 25, 2022	Open-Domain Question AnsweringPassage Retrieval	—Unverified
Bridging the Semantic Gaps: Improving Medical VQA Consistency with LLM-Augmented Question Sets	Apr 16, 2025	DiversityMedical Visual Question Answering	—Unverified
End-to-End Learning for Answering Structured Queries Directly over Text	Nov 15, 2018	Extractive Question-AnsweringKnowledge Graphs	—Unverified
Leveraging Inter-Chunk Interactions for Enhanced Retrieval in Large Language Model-Based Question Answering	Aug 6, 2024	Answer GenerationLanguage Modeling	—Unverified
Exploring Question Decomposition for Zero-Shot VQA	Oct 25, 2023	Question AnsweringVisual Question Answering	—Unverified
Exploring Sparse Spatial Relation in Graph Inference for Text-Based VQA	Oct 13, 2023	Graph LearningObject	—Unverified
Exploring the Effectiveness of GPT Models in Test-Taking: A Case Study of the Driver's License Knowledge Test	Aug 22, 2023	Question Answering	—Unverified
DualNet: Domain-Invariant Network for Visual Question Answering	Jun 20, 2016	Question AnsweringVisual Question Answering	—Unverified
Bilingual Event Extraction: a Case Study on Trigger Type Determination	Jun 1, 2014	Event ExtractionInformation Retrieval	—Unverified
End-to-End QA on COVID-19: Domain Adaptation with Synthetic Training	Dec 2, 2020	Domain AdaptationInformation Retrieval	—Unverified
Dual-Feedback Knowledge Retrieval for Task-Oriented Dialogue Systems	Oct 23, 2023	Open-Domain Question AnsweringQuestion Answering	—Unverified
Bilingual Active Learning for Relation Classification via Pseudo Parallel Corpora	Jun 1, 2014	Active LearningClassification	—Unverified
A Novel Attention-based Aggregation Function to Combine Vision and Language	Apr 27, 2020	General ClassificationImage Captioning	—Unverified
Dual Embeddings and Metrics for Relational Similarity	Jan 1, 2017	Learning Word EmbeddingsMachine Translation	—Unverified
Dual Constrained Question Embeddings with Relational Knowledge Bases for Simple Question Answering	Nov 1, 2017	Question Answering	—Unverified
Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method	Mar 11, 2025	Language ModelingLanguage Modelling	—Unverified
Dual Co-Matching Network for Multi-choice Reading Comprehension	Jan 27, 2019	Machine Reading ComprehensionMultiple-choice	—Unverified
End-to-End Vision Tokenizer Tuning	May 15, 2025	Image GenerationQuestion Answering	—Unverified
BigText-QA: Question Answering over a Large-Scale Hybrid Knowledge Graph	Dec 12, 2022	DiversityQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 131 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified