Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7701–7725 of 10817 papers

Title	Date	Tasks	Status
An Effective Contextual Language Modeling Framework for Speech Summarization with Augmented Features	Jun 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Is This Just Fantasy? Language Model Representations Reflect Human Judgments of Event Plausibility	Jul 16, 2025	Language ModelingLanguage Modelling	—Unverified
"Is This It?": Towards Ecologically Valid Benchmarks for Situated Collaboration	Aug 30, 2024	Embodied Question AnsweringQuestion Answering	—Unverified
CyberBOT: Towards Reliable Cybersecurity Education via Ontology-Grounded Retrieval Augmented Generation	Apr 1, 2025	ChatbotQuestion Answering	—Unverified
Is Table Retrieval a Solved Problem? Exploring Join-Aware Multi-Table Retrieval	Apr 15, 2024	Open-Domain Question AnsweringQuestion Answering	—Unverified
QA: from Turing Test to Intelligent Information Service	Dec 1, 2012	Question Answering	—Unverified
Is Summary Useful or Not? An Extrinsic Human Evaluation of Text Summaries on Downstream Tasks	May 24, 2023	InformativenessQuestion Answering	—Unverified
ISS-MULT: Intelligent Sample Selection for Multi-Task Learning in Question Answering	Aug 7, 2017	Answer SelectionMulti-Task Learning	—Unverified
Is Sluice Resolution really just Question Answering?	May 29, 2021	Question Answering	—Unverified
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark	Jun 10, 2024	DiversityQuestion Answering	—Unverified
Automated Story Generation as Question-Answering	Dec 7, 2021	Generative Question AnsweringLanguage Modeling	—Unverified
ANEC: An Amharic Named Entity Corpus and Transformer Based Recognizer	Jul 2, 2022	imbalanced classificationInformation Retrieval	—Unverified
ARTEMIS-DA: An Advanced Reasoning and Transformation Engine for Multi-Step Insight Synthesis in Data Analytics	Dec 18, 2024	Code GenerationInformation Retrieval	—Unverified
A Cognitive Ideation Support Framework using IBM Watson Services	Dec 18, 2024	Question Answering	—Unverified
Is Retriever Merely an Approximator of Reader?	Oct 21, 2020	Open-Domain Question AnsweringQuestion Answering	—Unverified
C-VQA: A Compositional Split of the Visual Question Answering (VQA) v1.0 Dataset	Apr 26, 2017	Question AnsweringVisual Question Answering	—Unverified
Is Relevance Propagated from Retriever to Generator in RAG?	Feb 20, 2025	Large Language ModelQuestion Answering	—Unverified
Automated Historical Fact-Checking by Passage Retrieval, Word Statistics, and Virtual Question-Answering	Nov 1, 2017	Fact CheckingPassage Retrieval	—Unverified
ISO-TimeML Event Extraction in Persian Text	Dec 1, 2012	Event ExtractionInformation Retrieval	—Unverified
IslamicPCQA: A Dataset for Persian Multi-hop Complex Question Answering in Islamic Text Resources	Apr 23, 2023	Question Answering	—Unverified
Is It Dish Washer Safe? Automatically Answering ``Yes/No'' Questions Using Customer Reviews	Jun 1, 2019	Question AnsweringReading Comprehension	—Unverified
Cut to the Chase: A Context Zoom-in Network for Reading Comprehension	Oct 1, 2018	Question AnsweringReading Comprehension	—Unverified
Automated Graph Generation at Sentence Level for Reading Comprehension Based on Conceptual Graphs	Dec 1, 2020	Graph GenerationMiscellaneous	—Unverified
Is Graph Structure Necessary for Multi-hop Question Answering?	Apr 7, 2020	Graph AttentionMulti-hop Question Answering	—Unverified
Is GPT-3 all you need for Visual Question Answering in Cultural Heritage?	Jul 25, 2022	AllQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 309 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified