Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5701–5725 of 10817 papers

Title	Date	Tasks	Status
Document retrieval and question answering in medical documents. A large-scale corpus challenge.	Sep 1, 2017	Document ClassificationGeneral Classification	—Unverified
Document-level Causal Relation Extraction with Knowledge-guided Binary Question Answering	Oct 7, 2024	Question AnsweringRelation	—Unverified
Document Collection Visual Question Answering	Apr 27, 2021	document understandingQuestion Answering	—Unverified
Document Attribution: Examining Citation Relationships using Large Language Models	May 9, 2025	Document SummarizationNatural Language Inference	—Unverified
BERT-PersNER: A New Model for Persian Named Entity Recognition	Sep 1, 2021	Active LearningMachine Translation	—Unverified
ANNA: Enhanced Language Representation for Question Answering	Nov 16, 2021	Language ModelingLanguage Modelling	—Unverified
Document AI: Benchmarks, Models and Applications	Nov 16, 2021	Deep LearningDocument AI	—Unverified
DocPrompt: Large-scale continue pretrain for zero-shot and few-shot document question answering	Aug 21, 2023	Question Answering	—Unverified
BERTologyNavigator: Advanced Question Answering with BERT-based Semantics	Jan 17, 2024	Knowledge GraphsNavigate	—Unverified
DOCMASTER: A Unified Platform for Annotation, Training, & Inference in Document Question-Answering	Mar 30, 2024	Privacy PreservingQuestion Answering	—Unverified
DocGraphLM: Documental Graph Language Model for Information Extraction	Jan 5, 2024	document understandingLanguage Modeling	—Unverified
An Investigation of Machine Translation Evaluation Metrics in Cross-lingual Question Answering	Sep 1, 2015	Cross-Lingual Question AnsweringMachine Translation	—Unverified
A Fast, Reliable, and Secure Programming Language for LLM Agents with Code Actions	Jun 13, 2025	Conformal PredictionQuestion Answering	—Unverified
Docforia: A Multilayer Document Model	May 1, 2017	Coreference ResolutionDependency Parsing	—Unverified
Leveraging Chain of Thought towards Empathetic Spoken Dialogue without Corresponding Question-Answering Data	Jan 19, 2025	Dialogue GenerationQuestion Answering	—Unverified
DOCENT: Learning Self-Supervised Entity Representations from Large Document Collections	Feb 26, 2021	Knowledge Base CompletionNatural Language Queries	—Unverified
Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation Evaluation	Jul 18, 2023	Image GenerationQuestion Answering	—Unverified
Let's Reason Formally: Natural-Formal Hybrid Reasoning Enhances LLM's Math Capability	May 29, 2025	MathMathematical Reasoning	—Unverified
Let Sense Bags Do Talking: Cross Lingual Word Semantic Similarity for English and Hindi	Dec 1, 2015	Image RetrievalInformation Retrieval	—Unverified
DocChat: An Information Retrieval Approach for Chatbot Engines Using Unstructured Documents	Aug 1, 2016	ChatbotCommunity Question Answering	—Unverified
Let Me Know What to Ask: Interrogative-Word-Aware Question Generation	Oct 30, 2019	Question AnsweringQuestion Generation	—Unverified
DLS@CU: Sentence Similarity from Word Alignment	Aug 1, 2014	Information RetrievalMachine Translation	—Unverified
DLS@CU: Sentence Similarity from Word Alignment and Semantic Vector Composition	Jun 1, 2015	Information RetrievalMachine Translation	—Unverified
Less Is More: Linear Layers on CLIP Features as Powerful VizWiz Model	Jun 10, 2022	Question AnsweringTask 2	—Unverified
DLS@CU-CORE: A Simple Machine Learning Model of Semantic Textual Similarity	Jun 1, 2013	BIG-bench Machine LearningInformation Retrieval	—Unverified

Show:10 25 50

← PrevPage 229 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified