Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10251–10300 of 10817 papers

Title	Date	Tasks	Status
On Modality Bias Recognition and Reduction	Feb 25, 2022	Action RecognitionMulti-modal Classification	CodeCode Available
On Monotonic Aggregation for Open-domain QA	Aug 8, 2023	Language ModelingLanguage Modelling	CodeCode Available
On Context Utilization in Summarization with Large Language Models	Oct 16, 2023	Abstractive Text SummarizationPosition	CodeCode Available
Answer-level Calibration for Free-form Multiple Choice Question Answering	May 1, 2022	FormLanguage Modeling	CodeCode Available
MDCure: A Scalable Pipeline for Multi-Document Instruction-Following	Oct 30, 2024	ArticlesInstruction Following	CodeCode Available
DrishtiKon: Multi-Granular Visual Grounding for Text-Rich Document Images	Jun 26, 2025	document understandingOptical Character Recognition (OCR)	CodeCode Available
DramaQA: Character-Centered Video Story Understanding with Hierarchical QA	May 7, 2020	Question AnsweringVideo Question Answering	CodeCode Available
Atomic Consistency Preference Optimization for Long-Form Question Answering	May 14, 2025	FormLong Form Question Answering	CodeCode Available
DragonVerseQA: Open-Domain Long-Form Context-Aware Question-Answering	Dec 21, 2024	ArticlesForm	CodeCode Available
Distantly Supervised Question Parsing	Sep 27, 2019	Knowledge GraphsQuestion Answering	CodeCode Available
MoVie: Revisiting Modulated Convolutions for Visual Counting and Beyond	Apr 24, 2020	Object CountingQuestion Answering	CodeCode Available
On Subjective Uncertainty Quantification and Calibration in Natural Language Generation	Jun 7, 2024	In-Context LearningMachine Translation	CodeCode Available
Alignment over Heterogeneous Embeddings for Question Answering	Jun 1, 2019	AI2 Reasoning ChallengeARC	CodeCode Available
Dr3: Ask Large Language Models Not to Give Off-Topic Answers in Open Domain Multi-Hop Question Answering	Mar 19, 2024	Multi-hop Question AnsweringQuestion Answering	CodeCode Available
Is Multihop QA in DiRe Condition? Measuring and Reducing Disconnected Reasoning	May 2, 2020	Multi-hop Question AnsweringQuestion Answering	CodeCode Available
Downstream Datasets Make Surprisingly Good Pretraining Corpora	Sep 28, 2022	Question Answering	CodeCode Available
On the Cross-lingual Transferability of Monolingual Representations	Oct 25, 2019	Cross-Lingual Question AnsweringLanguage Modeling	CodeCode Available
Diversify, Rationalize, and Combine: Ensembling Multiple QA Strategies for Zero-shot Knowledge-based VQA	Jun 18, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Answering Questions about Data Visualizations using Efficient Bimodal Fusion	Aug 5, 2019	Chart Question AnsweringOptical Character Recognition	CodeCode Available
Measuring Compositional Generalization: A Comprehensive Method on Realistic Data	Dec 20, 2019	BIG-bench Machine LearningQuestion Answering	CodeCode Available
Down and Across: Introducing Crossword-Solving as a New NLP Benchmark	May 20, 2022	Natural Language UnderstandingOpen-Domain Question Answering	CodeCode Available
Prompt Space Optimizing Few-shot Reasoning Success with Large Language Models	Jun 6, 2023	Arithmetic ReasoningIn-Context Learning	CodeCode Available
Measuring Faithful and Plausible Visual Grounding in VQA	May 24, 2023	Question AnsweringVisual Grounding	CodeCode Available
Do Text Simplification Systems Preserve Meaning? A Human Evaluation via Reading Comprehension	Dec 15, 2023	Question AnsweringReading Comprehension	CodeCode Available
Measuring Free-Form Decision-Making Inconsistency of Language Models in Military Crisis Simulations	Oct 17, 2024	Decision MakingForm	CodeCode Available
ATM: Adversarial Tuning Multi-agent System Makes a Robust Retrieval-Augmented Generator	May 28, 2024	Information RetrievalLanguage Modelling	CodeCode Available
On the Efficacy of Adversarial Data Collection for Question Answering: Results from a Large-Scale Randomized Study	Jun 2, 2021	Question Answering	CodeCode Available
A template-independent approach for information extraction in real estate documents	May 30, 2023	Information RetrievalNatural Language Understanding	CodeCode Available
ProMQA: Question Answering Dataset for Multimodal Procedural Activity Understanding	Oct 29, 2024	Action RecognitionAction Segmentation	CodeCode Available
Propagate-Selector: Detecting Supporting Sentences for Question Answering via Graph Neural Networks	Aug 24, 2019	Answer SelectionGraph Neural Network	CodeCode Available
On-the-fly Denoising for Data Augmentation in Natural Language Understanding	Dec 20, 2022	Data AugmentationDenoising	CodeCode Available
Alignment Attention by Matching Key and Query Distributions	Oct 25, 2021	Graph AttentionQuestion Answering	CodeCode Available
A Technical Question Answering System with Transfer Learning	Oct 1, 2020	Question AnsweringTransfer Learning	CodeCode Available
Rotational Unit of Memory	Oct 26, 2017	Language ModelingLanguage Modelling	CodeCode Available
DO-RAG: A Domain-Specific QA Framework Using Knowledge Graph-Enhanced Retrieval-Augmented Generation	May 15, 2025	graph constructionHallucination	CodeCode Available
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding	May 20, 2025	Image CaptioningQuestion Answering	CodeCode Available
Don't Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering	Dec 1, 2017	Question AnsweringVisual Question Answering	CodeCode Available
Cascaded Mutual Modulation for Visual Reasoning	Sep 6, 2018	Question AnsweringVisual Question Answering	CodeCode Available
Do Not Trust the Trolls: Predicting Credibility in Community Question Answering Forums	Sep 1, 2017	Community Question AnsweringInformation Retrieval	CodeCode Available
Do NLP Models Know Numbers? Probing Numeracy in Embeddings	Sep 17, 2019	Question Answering	CodeCode Available
CAR: Conceptualization-Augmented Reasoner for Zero-Shot Commonsense Question Answering	May 24, 2023	Question Answering	CodeCode Available
MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks	May 6, 2025	BenchmarkingMultiple-choice	CodeCode Available
Do Multi-hop Readers Dream of Reasoning Chains?	Oct 31, 2019	Question Answering	CodeCode Available
Domino at FinCausal 2020, Task 1 and 2: Causal Extraction System	Dec 1, 2020	Information RetrievalQuestion Answering	CodeCode Available
On the Impact of Speech Recognition Errors in Passage Retrieval for Spoken Question Answering	Sep 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing	Jul 31, 2020	Continual Pretraining	CodeCode Available
Domain-agnostic Question-Answering with Adversarial Training	Oct 21, 2019	Domain GeneralizationQuestion Answering	CodeCode Available
Domain Adaptation for Question Answering via Question Classification	Sep 12, 2022	Domain AdaptationGeneral Classification	CodeCode Available
Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering	Apr 10, 2025	Machine TranslationQuestion Answering	CodeCode Available
On the Importance of Adaptive Data Collection for Extremely Imbalanced Pairwise Tasks	Oct 10, 2020	Active LearningOpen-Domain Question Answering	CodeCode Available

Show:10 25 50

← PrevPage 206 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified