Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6326–6350 of 10817 papers

Title	Date	Tasks	Status
Mining temporal footprints from Wikipedia	Aug 1, 2014	Question AnsweringTemporal Information Extraction	—Unverified
Contingency and Comparison Relation Labeling and Structure Prediction in Chinese Sentences	Jul 1, 2012	Opinion MiningQuestion Answering	—Unverified
How Relevant is Selective Memory Population in Lifelong Language Learning?	Oct 3, 2022	Lifelong learningQuestion Answering	—Unverified
A Multi-Task Role-Playing Agent Capable of Imitating Character Linguistic Styles	Nov 4, 2024	Question AnsweringStory Generation	—Unverified
Boosting Question Answering by Deep Entity Recognition	May 27, 2016	named-entity-recognitionNamed Entity Recognition	—Unverified
How Privacy-Savvy Are Large Language Models? A Case Study on Compliance and Privacy Technical Review	Sep 4, 2024	Question AnsweringText Generation	—Unverified
A survey on phrase structure learning methods for text classification	Jun 21, 2014	ClassificationGeneral Classification	—Unverified
MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie Understanding	Dec 8, 2023	FormQuestion Answering	—Unverified
Mitigating Bias for Question Answering Models by Tracking Bias Influence	Oct 13, 2023	Multiple-choiceMulti-Task Learning	—Unverified
Challenges in Explanation Quality Evaluation	Oct 13, 2022	Question Answering	—Unverified
Mitigating Clickbait: An Approach to Spoiler Generation Using Multitask Learning	May 7, 2024	Multi-Task LearningQuestion Answering	—Unverified
How much should you ask? On the question structure in QA systems	Sep 11, 2018	Question Answeringvalid	—Unverified
How much should you ask? On the question structure in QA systems.	Nov 1, 2018	Question Answeringvalid	—Unverified
A Survey on non-English Question Answering Dataset	Dec 27, 2021	Cross-Lingual Question AnsweringQuestion Answering	—Unverified
Mitigating Large Language Model Hallucination with Faithful Finetuning	Jun 17, 2024	HallucinationLanguage Modeling	—Unverified
Mitigating LLM Hallucinations via Conformal Abstention	Apr 4, 2024	Conformal PredictionGenerative Question Answering	—Unverified
Mitigating LLM Hallucinations with Knowledge Graphs: A Case Study	Apr 16, 2025	Knowledge GraphsQuestion Answering	—Unverified
Movie Script Summarization as Graph-based Scene Extraction	May 1, 2015	NavigateQuestion Answering	—Unverified
Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy	Mar 26, 2025	HallucinationImage Captioning	—Unverified
MQA-KEAL: Multi-hop Question Answering under Knowledge Editing for Arabic Language	Sep 18, 2024	knowledge editingMulti-hop Question Answering	—Unverified
Data-augmented phrase-level alignment for mitigating object hallucination	May 28, 2024	Data AugmentationHallucination	—Unverified
EICA Team at SemEval-2017 Task 3: Semantic and Metadata-based Features for Community Question Answering	Aug 1, 2017	Community Question AnsweringFeature Engineering	—Unverified
Mitigating the Impact of Attribute Editing on Face Recognition	Mar 12, 2024	AttributeFace Recognition	—Unverified
MRNN: A Multi-Resolution Neural Network with Duplex Attention for Document Retrieval in the Context of Question Answering	Nov 3, 2019	Question AnsweringRetrieval	—Unverified
A Survey on Neural Open Information Extraction: Current Status and Future Directions	May 24, 2022	Knowledge Base ConstructionNatural Language Understanding	—Unverified

Show:10 25 50

← PrevPage 254 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified