Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6101–6150 of 10817 papers

Title	Date	Tasks	Status
Human Attention in Visual Question Answering: Do Humans and Deep Networks Look at the Same Regions?	Jun 11, 2016	Question AnsweringVisual Question Answering	—Unverified
MC\^2: Multi-perspective Convolutional Cube for Conversational Machine Reading Comprehension	Jul 1, 2019	Conversational Question AnsweringMachine Reading Comprehension	—Unverified
Human Attention in Visual Question Answering: Do Humans and Deep Networks Look at the Same Regions?	Jun 17, 2016	Question AnsweringVisual Question Answering	—Unverified
A Survey on Why-Type Question Answering Systems	Nov 12, 2019	Question AnsweringSurvey	—Unverified
Human-Adversarial Visual Question Answering	Jun 4, 2021	Question AnsweringVisual Question Answering	—Unverified
Human Adversarial QA: Did the Model Understand the Paragraph?	Oct 16, 2020	Language ModelingLanguage Modelling	—Unverified
Huge Automatically Extracted Training-Sets for Multilingual Word SenseDisambiguation	May 1, 2018	Question AnsweringSemantic Parsing	—Unverified
MCQA: Multimodal Co-attention Based Network for Question Answering	Apr 25, 2020	cross-modal alignmentQuestion Answering	—Unverified
MCR-Net: A Multi-Step Co-Interactive Relation Network for Unanswerable Questions on Machine Reading Comprehension	Mar 8, 2021	Machine Reading ComprehensionQuestion Answering	—Unverified
MCSFF: Multi-modal Consistency and Specificity Fusion Framework for Entity Alignment	Oct 18, 2024	Entity AlignmentInformation Retrieval	—Unverified
MCTS-KBQA: Monte Carlo Tree Search for Knowledge Base Question Answering	Feb 19, 2025	Decision MakingKnowledge Base Question Answering	—Unverified
E3D-GPT: Enhanced 3D Visual Foundation for Medical Vision-Language Model	Oct 18, 2024	Language ModelingLanguage Modelling	—Unverified
Contrastive Data and Learning for Natural Language Processing	Jul 1, 2022	Contrastive LearningQuestion Answering	—Unverified
A survey on VQA_Datasets and Approaches	May 2, 2021	Question AnsweringSurvey	—Unverified
Mitigating Knowledge Conflicts in Language Model-Driven Question Answering	Nov 18, 2024	Document SummarizationHallucination	—Unverified
HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial Images	Jan 23, 2023	AttributeQuestion Answering	—Unverified
EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation	Dec 6, 2024	MMEQuestion Answering	—Unverified
Meaningful Answer Generation of E-Commerce Question-Answering	Nov 14, 2020	Answer GenerationQuestion Answering	—Unverified
HRoT: Hybrid prompt strategy and Retrieval of Thought for Table-Text Hybrid Question Answering	Sep 22, 2023	In-Context LearningQuestion Answering	—Unverified
Measuring an Artificial Intelligence System's Performance on a Verbal IQ Test For Young Children	Sep 11, 2015	Common Sense ReasoningQuestion Answering	—Unverified
Contrastive Cross-Modal Knowledge Sharing Pre-training for Vision-Language Representation Learning and Retrieval	Jul 2, 2022	Contrastive LearningCross-Modal Retrieval	—Unverified
Biomedical Question Answering: A Survey of Approaches and Challenges	Feb 10, 2021	Information RetrievalMachine Reading Comprehension	—Unverified
Mitigating Clickbait: An Approach to Spoiler Generation Using Multitask Learning	May 7, 2024	Multi-Task LearningQuestion Answering	—Unverified
Measuring CLEVRness: Black-box Testing of Visual Reasoning Models	Sep 29, 2021	BenchmarkingDiagnostic	—Unverified
Measuring CLEVRness: Blackbox testing of Visual Reasoning Models	Feb 24, 2022	BenchmarkingDiagnostic	—Unverified
Measuring Compositional Consistency for Video Question Answering	Apr 14, 2022	Question AnsweringVideo Question Answering	—Unverified
HRCA+: Advanced Multiple-choice Machine Reading Comprehension Method	Jun 1, 2022	Machine Reading ComprehensionMultiple-choice	—Unverified
HPI Question Answering System in BioASQ 2016	Aug 1, 2016	Question Answering	—Unverified
Measuring Domain Portability and ErrorPropagation in Biomedical QA	Sep 12, 2019	Natural QuestionsQuestion Answering	—Unverified
Biomedical Question Answering via Weighted Neural Network Passage Retrieval	Jan 9, 2018	Passage RetrievalQuestion Answering	—Unverified
A Survey on Table Question Answering: Recent Advances	Jul 12, 2022	Question AnsweringSemantic Parsing	—Unverified
How You Ask Matters: The Effect of Paraphrastic Questions to BERT Performance on a Clinical SQuAD Dataset	Nov 1, 2020	Question AnsweringReading Comprehension	—Unverified
Addressing Semantic Drift in Generative Question Answering with Auxiliary Extraction	Aug 1, 2021	DecoderGenerative Question Answering	—Unverified
Measuring Popularity of Machine-Generated Sentences Using Term Count, Document Frequency, and Dependency Language Model	Oct 1, 2015	Language ModelingLanguage Modelling	—Unverified
Mitigating Bias for Question Answering Models by Tracking Bias Influence	Oct 13, 2023	Multiple-choiceMulti-Task Learning	—Unverified
Measuring Retrieval Complexity in Question Answering Systems	Jun 5, 2024	Question AnsweringRetrieval	—Unverified
Mitigating Hallucination in Visual-Language Models via Re-Balancing Contrastive Decoding	Sep 10, 2024	HallucinationImage Captioning	—Unverified
Measuring Sentences Similarity: A Survey	Oct 6, 2019	Information RetrievalQuestion Answering	—Unverified
Mitigating Large Language Model Hallucination with Faithful Finetuning	Jun 17, 2024	HallucinationLanguage Modeling	—Unverified
Measuring the Limit of Semantic Divergence for English Tweets.	Sep 1, 2017	Machine TranslationQuestion Answering	—Unverified
MEBench: Benchmarking Large Language Models for Cross-Document Multi-Entity Question Answering	Feb 26, 2025	BenchmarkingQuestion Answering	—Unverified
Mitigating Lost-in-Retrieval Problems in Retrieval Augmented Multi-Hop Question Answering	Feb 20, 2025	Answer GenerationMulti-hop Question Answering	—Unverified
Continuous Training and Fine-tuning for Domain-Specific Language Models in Medical Question Answering	Nov 1, 2023	Medical Question AnsweringQuestion Answering	—Unverified
How well do Computers Solve Math Word Problems? Large-Scale Dataset Construction and Evaluation	Aug 1, 2016	Community Question AnsweringMath	—Unverified
A Survey on Table-and-Text HybridQA: Concepts, Methods, Challenges and Future Directions	Dec 27, 2022	Question AnsweringSurvey	—Unverified
How Well can We Learn Interpretable Entity Types from Text?	Jun 1, 2014	Question AnsweringRelation Extraction	—Unverified
How Well Can Vison-Language Models Understand Humans' Intention? An Open-ended Theory of Mind Question Evaluation Benchmark	Mar 28, 2025	Question AnsweringVisual Question Answering	—Unverified
How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey	Dec 11, 2024	Image CaptioningQuestion Answering	—Unverified
Echo-Attention: Attend Once and Get N Attentions for Free	Oct 16, 2021	Language ModelingLanguage Modelling	—Unverified
How Transferable are Reasoning Patterns in VQA?	Apr 8, 2021	Question AnsweringVisual Question Answering	—Unverified

Show:10 25 50

← PrevPage 123 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified