Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7226–7250 of 10817 papers

Title	Date	Tasks	Status
Overview of BioASQ 2021: The ninth BioASQ challenge on Large-Scale Biomedical Semantic Indexing and Question Answering	Jun 28, 2021	Question Answering	—Unverified
Connecting Language and Vision to Actions	Jul 1, 2018	Image CaptioningLanguage Modeling	—Unverified
Overview of BioASQ 2023: The eleventh BioASQ challenge on Large-Scale Biomedical Semantic Indexing and Question Answering	Jul 11, 2023	Question Answering	—Unverified
Overview of Factify5WQA: Fact Verification through 5W Question-Answering	Oct 5, 2024	Fact VerificationFake News Detection	—Unverified
Hadamard product in deep learning: Introduction, Advances and Challenges	Apr 17, 2025	Computational EfficiencyDeep Learning	—Unverified
AMRITA\_CEN@SemEval-2015: Paraphrase Detection for Twitter using Unsupervised Feature Learning with Recursive Autoencoders	Jun 1, 2015	Information RetrievalMachine Translation	—Unverified
Overview of the MedVidQA 2022 Shared Task on Medical Video Question-Answering	May 1, 2022	Question AnsweringVideo Classification	—Unverified
Overview of the NLPCC 2025 Shared Task 4: Multi-modal, Multilingual, and Multi-hop Medical Instructional Video Question Answering Challenge	May 11, 2025	Multimodal ReasoningQuestion Answering	—Unverified
Overview of TREC 2024 Biomedical Generative Retrieval (BioGen) Track	Nov 27, 2024	Medical Question AnsweringQuestion Answering	—Unverified
PEACE: Empowering Geologic Map Holistic Understanding with MLLMs	Jan 10, 2025	Question Answering	—Unverified
OVQA: A Clinically Generated Visual Question Answering Dataset	Jul 7, 2022	BenchmarkingMedical Visual Question Answering	—Unverified
GW\_QA at SemEval-2017 Task 3: Question Answer Re-ranking on Arabic Fora	Aug 1, 2017	Answer SelectionBIG-bench Machine Learning	—Unverified
P^3LM: Probabilistically Permuted Prophet Language Modeling for Generative Pre-Training	Oct 22, 2022	Conversational Question AnsweringDecoder	—Unverified
PABI: A Unified PAC-Bayesian Informativeness Measure for Incidental Supervision Signals	Jan 1, 2021	Informativenessnamed-entity-recognition	—Unverified
PaCCSS-IT: A Parallel Corpus of Complex-Simple Sentences for Automatic Text Simplification	Nov 1, 2016	Dependency ParsingDomain Adaptation	—Unverified
A Study on Expert Sourcing Enterprise Question Collection and Classification	May 1, 2014	General ClassificationQuestion Answering	—Unverified
Accelerating Real-Time Question Answering via Question Generation	Sep 10, 2020	Data AugmentationMulti-Task Learning	—Unverified
PEBench: A Fictitious Dataset to Benchmark Machine Unlearning for Multimodal Large Language Models	Mar 16, 2025	Machine UnlearningPrivacy Preserving	—Unverified
P\'agico: Evaluating Wikipedia-based information retrieval in Portuguese	May 1, 2012	Cultural Vocal Bursts Intensity PredictionInformation Retrieval	—Unverified
Paired Examples as Indirect Supervision in Latent Decision Models	Apr 5, 2021	Out-of-Distribution GeneralizationQuestion Answering	—Unverified
Exploiting Bilingual Translation for Question Retrieval in Community-Based Question Answering	Dec 1, 2012	Community Question AnsweringMachine Translation	—Unverified
Confidence Estimation for Knowledge Base Population	Sep 1, 2013	Knowledge Base PopulationMachine Translation	—Unverified
Pairwise Relation Classification with Mirror Instances and a Combined Convolutional Neural Network	Dec 1, 2016	ClassificationGeneral Classification	—Unverified
Pairwise Word Interaction Modeling with Deep Neural Networks for Semantic Similarity Measurement	Jun 1, 2016	Answer SelectionParaphrase Generation	—Unverified
GUITAR: Gradient Pruning toward Fast Neural Ranking	Dec 28, 2023	Question AnsweringRepresentation Learning	—Unverified

Show:10 25 50

← PrevPage 290 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified