Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6126–6150 of 10817 papers

Title	Date	Tasks	Status
Measuring Compositional Consistency for Video Question Answering	Apr 14, 2022	Question AnsweringVideo Question Answering	—Unverified
HRCA+: Advanced Multiple-choice Machine Reading Comprehension Method	Jun 1, 2022	Machine Reading ComprehensionMultiple-choice	—Unverified
HPI Question Answering System in BioASQ 2016	Aug 1, 2016	Question Answering	—Unverified
Measuring Domain Portability and ErrorPropagation in Biomedical QA	Sep 12, 2019	Natural QuestionsQuestion Answering	—Unverified
Biomedical Question Answering via Weighted Neural Network Passage Retrieval	Jan 9, 2018	Passage RetrievalQuestion Answering	—Unverified
A Survey on Table Question Answering: Recent Advances	Jul 12, 2022	Question AnsweringSemantic Parsing	—Unverified
How You Ask Matters: The Effect of Paraphrastic Questions to BERT Performance on a Clinical SQuAD Dataset	Nov 1, 2020	Question AnsweringReading Comprehension	—Unverified
Addressing Semantic Drift in Generative Question Answering with Auxiliary Extraction	Aug 1, 2021	DecoderGenerative Question Answering	—Unverified
Measuring Popularity of Machine-Generated Sentences Using Term Count, Document Frequency, and Dependency Language Model	Oct 1, 2015	Language ModelingLanguage Modelling	—Unverified
Mitigating Bias for Question Answering Models by Tracking Bias Influence	Oct 13, 2023	Multiple-choiceMulti-Task Learning	—Unverified
Measuring Retrieval Complexity in Question Answering Systems	Jun 5, 2024	Question AnsweringRetrieval	—Unverified
Mitigating Hallucination in Visual-Language Models via Re-Balancing Contrastive Decoding	Sep 10, 2024	HallucinationImage Captioning	—Unverified
Measuring Sentences Similarity: A Survey	Oct 6, 2019	Information RetrievalQuestion Answering	—Unverified
Mitigating Large Language Model Hallucination with Faithful Finetuning	Jun 17, 2024	HallucinationLanguage Modeling	—Unverified
Measuring the Limit of Semantic Divergence for English Tweets.	Sep 1, 2017	Machine TranslationQuestion Answering	—Unverified
MEBench: Benchmarking Large Language Models for Cross-Document Multi-Entity Question Answering	Feb 26, 2025	BenchmarkingQuestion Answering	—Unverified
Mitigating Lost-in-Retrieval Problems in Retrieval Augmented Multi-Hop Question Answering	Feb 20, 2025	Answer GenerationMulti-hop Question Answering	—Unverified
Continuous Training and Fine-tuning for Domain-Specific Language Models in Medical Question Answering	Nov 1, 2023	Medical Question AnsweringQuestion Answering	—Unverified
How well do Computers Solve Math Word Problems? Large-Scale Dataset Construction and Evaluation	Aug 1, 2016	Community Question AnsweringMath	—Unverified
A Survey on Table-and-Text HybridQA: Concepts, Methods, Challenges and Future Directions	Dec 27, 2022	Question AnsweringSurvey	—Unverified
How Well can We Learn Interpretable Entity Types from Text?	Jun 1, 2014	Question AnsweringRelation Extraction	—Unverified
How Well Can Vison-Language Models Understand Humans' Intention? An Open-ended Theory of Mind Question Evaluation Benchmark	Mar 28, 2025	Question AnsweringVisual Question Answering	—Unverified
How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey	Dec 11, 2024	Image CaptioningQuestion Answering	—Unverified
Echo-Attention: Attend Once and Get N Attentions for Free	Oct 16, 2021	Language ModelingLanguage Modelling	—Unverified
How Transferable are Reasoning Patterns in VQA?	Apr 8, 2021	Question AnsweringVisual Question Answering	—Unverified

Show:10 25 50

← PrevPage 246 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified