Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10251–10275 of 10817 papers

Title	Date	Tasks	Status
ATP: Directed Graph Embedding with Asymmetric Transitivity Preservation	Nov 2, 2018	Community Question AnsweringGraph Embedding	CodeCode Available
Alignment over Heterogeneous Embeddings for Question Answering	Jun 1, 2019	AI2 Reasoning ChallengeARC	CodeCode Available
MDCure: A Scalable Pipeline for Multi-Document Instruction-Following	Oct 30, 2024	ArticlesInstruction Following	CodeCode Available
DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs	Mar 1, 2019	Question AnsweringReading Comprehension	CodeCode Available
DrishtiKon: Multi-Granular Visual Grounding for Text-Rich Document Images	Jun 26, 2025	document understandingOptical Character Recognition (OCR)	CodeCode Available
Diversify, Rationalize, and Combine: Ensembling Multiple QA Strategies for Zero-shot Knowledge-based VQA	Jun 18, 2024	Question AnsweringVisual Question Answering	CodeCode Available
DramaQA: Character-Centered Video Story Understanding with Hierarchical QA	May 7, 2020	Question AnsweringVideo Question Answering	CodeCode Available
Distantly Supervised Question Parsing	Sep 27, 2019	Knowledge GraphsQuestion Answering	CodeCode Available
On Subjective Uncertainty Quantification and Calibration in Natural Language Generation	Jun 7, 2024	In-Context LearningMachine Translation	CodeCode Available
Answer-level Calibration for Free-form Multiple Choice Question Answering	May 1, 2022	FormLanguage Modeling	CodeCode Available
On the Cross-lingual Transferability of Monolingual Representations	Oct 25, 2019	Cross-Lingual Question AnsweringLanguage Modeling	CodeCode Available
DragonVerseQA: Open-Domain Long-Form Context-Aware Question-Answering	Dec 21, 2024	ArticlesForm	CodeCode Available
Is Multihop QA in DiRe Condition? Measuring and Reducing Disconnected Reasoning	May 2, 2020	Multi-hop Question AnsweringQuestion Answering	CodeCode Available
Dr3: Ask Large Language Models Not to Give Off-Topic Answers in Open Domain Multi-Hop Question Answering	Mar 19, 2024	Multi-hop Question AnsweringQuestion Answering	CodeCode Available
Revisiting Sentence Union Generation as a Testbed for Text Consolidation	May 24, 2023	Document SummarizationLong Form Question Answering	CodeCode Available
Prompt Space Optimizing Few-shot Reasoning Success with Large Language Models	Jun 6, 2023	Arithmetic ReasoningIn-Context Learning	CodeCode Available
Atomic Consistency Preference Optimization for Long-Form Question Answering	May 14, 2025	FormLong Form Question Answering	CodeCode Available
Measuring Compositional Generalization: A Comprehensive Method on Realistic Data	Dec 20, 2019	BIG-bench Machine LearningQuestion Answering	CodeCode Available
Downstream Datasets Make Surprisingly Good Pretraining Corpora	Sep 28, 2022	Question Answering	CodeCode Available
ATM: Adversarial Tuning Multi-agent System Makes a Robust Retrieval-Augmented Generator	May 28, 2024	Information RetrievalLanguage Modelling	CodeCode Available
Measuring Faithful and Plausible Visual Grounding in VQA	May 24, 2023	Question AnsweringVisual Grounding	CodeCode Available
Down and Across: Introducing Crossword-Solving as a New NLP Benchmark	May 20, 2022	Natural Language UnderstandingOpen-Domain Question Answering	CodeCode Available
Measuring Free-Form Decision-Making Inconsistency of Language Models in Military Crisis Simulations	Oct 17, 2024	Decision MakingForm	CodeCode Available
On the Efficacy of Adversarial Data Collection for Question Answering: Results from a Large-Scale Randomized Study	Jun 2, 2021	Question Answering	CodeCode Available
ProMQA: Question Answering Dataset for Multimodal Procedural Activity Understanding	Oct 29, 2024	Action RecognitionAction Segmentation	CodeCode Available

Show:10 25 50

← PrevPage 411 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified