Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1851–1875 of 10817 papers

Title	Date	Tasks	Status	Hype
Why So Gullible? Enhancing the Robustness of Retrieval-Augmented Models against Counterfactual Noise	May 2, 2023	counterfactualFew-Shot Learning	CodeCode Available	1
Change Detection Meets Visual Question Answering	Dec 12, 2021	Answer GenerationChange Detection	CodeCode Available	1
Distantly-Supervised Dense Retrieval Enables Open-Domain Question Answering without Evidence Annotation	Nov 1, 2021	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1
QuestEval: Summarization Asks for Fact-based Evaluation	Mar 23, 2021	Question Answering	CodeCode Available	1
Dialog Inpainting: Turning Documents into Dialogs	May 18, 2022	Conversational Question AnsweringQuestion Answering	CodeCode Available	1
CharacterBox: Evaluating the Role-Playing Capabilities of LLMs in Text-Based Virtual Worlds	Dec 7, 2024	Question Answering	CodeCode Available	1
DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs	Jun 24, 2024	Question AnsweringRetrieval	CodeCode Available	1
Constructing A Multi-hop QA Dataset for Comprehensive Evaluation of Reasoning Steps	Nov 2, 2020	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	1
DialogLM: Pre-trained Model for Long Dialogue Understanding and Summarization	Sep 6, 2021	abstractive question answeringDenoising	CodeCode Available	1
Scalable Neural-Probabilistic Answer Set Programming	Jun 14, 2023	Probabilistic ProgrammingQuestion Answering	CodeCode Available	1
ChatGPT: Jack of all trades, master of none	Feb 21, 2023	AllChatbot	CodeCode Available	1
A Dataset of Information-Seeking Questions and Answers Anchored in Research Papers	May 7, 2021	Evidence SelectionQuestion Answering	CodeCode Available	1
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension	Feb 28, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
ScanQA: 3D Question Answering for Spatial Scene Understanding	Dec 20, 2021	3D Question Answering (3D-QA)Object	CodeCode Available	1
SCDE: Sentence Cloze Dataset with High Quality Distractors From Examinations	Apr 27, 2020	Question AnsweringSentence	CodeCode Available	1
Scene-Text Grounding for Text-Based Video Question Answering	Sep 22, 2024	2kContrastive Learning	CodeCode Available	1
DeVLBert: Learning Deconfounded Visio-Linguistic Representations	Aug 16, 2020	Image RetrievalQuestion Answering	CodeCode Available	1
Detecting and Preventing Hallucinations in Large Vision Language Models	Aug 11, 2023	16kHallucination	CodeCode Available	1
Detecting Hate Speech in Multi-modal Memes	Dec 29, 2020	Binary ClassificationHate Speech Detection	CodeCode Available	1
SciFive: a text-to-text transformer model for biomedical literature	May 28, 2021	Document ClassificationDrug–drug Interaction Extraction	CodeCode Available	1
ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification	Apr 29, 2025	DiagnosticQuestion Answering	CodeCode Available	1
Development and bilingual evaluation of Japanese medical large language model within reasonably low computational resources	Sep 18, 2024	GPULanguage Modeling	CodeCode Available	1
ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots	Sep 16, 2022	BenchmarkingQuestion Answering	CodeCode Available	1
ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning	Mar 14, 2024	Chart UnderstandingInstruction Following	CodeCode Available	1
DialSim: A Real-Time Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents	Jun 19, 2024	Dialogue UnderstandingQuestion Answering	CodeCode Available	1

Show:10 25 50

← PrevPage 75 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified