Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 776–800 of 10817 papers

Title	Date	Tasks	Status	Hype
Towards General Natural Language Understanding with Probabilistic Worldbuilding	May 6, 2021	Natural Language UnderstandingQuestion Answering	CodeCode Available	1
Effective Human-AI Teams via Learned Natural Language Rules and Onboarding	Nov 2, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
Answering Complex Open-Domain Questions with Multi-Hop Dense Retrieval	Sep 27, 2020	Question AnsweringRetrieval	CodeCode Available	1
Don't Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases	Sep 9, 2019	Natural Language InferenceQuestion Answering	CodeCode Available	1
DRESSing Up LLM: Efficient Stylized Question-Answering via Style Subspace Editing	Jan 24, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
DocVXQA: Context-Aware Visual Explanations for Document Question Answering	May 12, 2025	Question Answering	CodeCode Available	1
Does Time Have Its Place? Temporal Heads: Where Language Models Recall Time-specific Information	Feb 20, 2025	Question Answering	CodeCode Available	1
3D Vision and Language Pretraining with Large-Scale Synthetic Data	Jul 8, 2024	Dense CaptioningDiversity	CodeCode Available	1
DocVQA: A Dataset for VQA on Document Images	Jul 1, 2020	Question AnsweringReading Comprehension	CodeCode Available	1
Agentic Keyframe Search for Video Question Answering	Mar 20, 2025	EgoSchemaQuestion Answering	CodeCode Available	1
EgoToM: Benchmarking Theory of Mind Reasoning from Egocentric Videos	Mar 28, 2025	BenchmarkingQuestion Answering	CodeCode Available	1
EHRNoteQA: An LLM Benchmark for Real-World Clinical Practice Using Discharge Summaries	Feb 25, 2024	Decision MakingQuestion Answering	CodeCode Available	1
EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health Records with Chest X-ray Images	Oct 28, 2023	Decision MakingMedical Visual Question Answering	CodeCode Available	1
ELECTRAMed: a new pre-trained language representation model for biomedical NLP	Apr 19, 2021	Drug–drug Interaction ExtractionLanguage Modeling	CodeCode Available	1
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators	Mar 23, 2020	GPULanguage Modeling	CodeCode Available	1
Does Vision-and-Language Pretraining Improve Lexical Grounding?	Sep 21, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1
Dynamic Semantic Graph Construction and Reasoning for Explainable Multi-hop Science Question Answering	May 25, 2021	Abstract Meaning RepresentationARC	CodeCode Available	1
Empirical Study of Zero-Shot NER with ChatGPT	Oct 16, 2023	Arithmetic Reasoningnamed-entity-recognition	CodeCode Available	1
Empower Entity Set Expansion via Language Model Probing	Apr 29, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
Ditch the Gold Standard: Re-evaluating Conversational Question Answering	Dec 16, 2021	Conversational Question AnsweringQuestion Answering	CodeCode Available	1
Answering Questions by Meta-Reasoning over Multiple Chains of Thought	Apr 25, 2023	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	1
AfriQA: Cross-lingual Open-Retrieval Question Answering for African Languages	May 11, 2023	Question AnsweringRetrieval	CodeCode Available	1
Answering Questions on COVID-19 in Real-Time	Jun 29, 2020	Information RetrievalQuestion Answering	CodeCode Available	1
Diversify Question Generation with Retrieval-Augmented Style Transfer	Oct 23, 2023	DiversityQuestion Answering	CodeCode Available	1
Distilling Knowledge from Reader to Retriever for Question Answering	Dec 8, 2020	Information RetrievalKnowledge Distillation	CodeCode Available	1

Show:10 25 50

← PrevPage 32 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified