Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3501–3525 of 10817 papers

Title	Date	Tasks	Status
Evaluating the Representational Hub of Language and Vision Models	Apr 12, 2019	DiagnosticQuestion Answering	—Unverified
Evaluating the Retrieval Component in LLM-Based Question Answering Systems	Jun 10, 2024	Information RetrievalQuestion Answering	—Unverified
Fine-tuning and aligning question answering models for complex information extraction tasks	Sep 26, 2023	Information RetrievalPassage Retrieval	—Unverified
Evaluating the Symbol Binding Ability of Large Language Models for Multiple-Choice Questions in Vietnamese General Education	Oct 18, 2023	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified
DP-KB: Data Programming with Knowledge Bases Improves Transformer Fine Tuning for Answer Sentence Selection	Mar 17, 2022	Entity LinkingFact Verification	—Unverified
Evaluating Variable-Length Multiple-Option Lists in Chatbots and Mobile Search	May 25, 2019	Question Answering	—Unverified
Do You Know What You Are Talking About? Characterizing Query-Knowledge Relevance For Reliable Retrieval Augmented Generation	Oct 10, 2024	MisinformationQuestion Answering	—Unverified
Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering	Mar 14, 2025	Embodied Question AnsweringQuestion Answering	—Unverified
Evaluation and Enhancement of Semantic Grounding in Large Vision-Language Models	Sep 7, 2023	Question AnsweringVisual Question Answering	—Unverified
Evaluation for Partial Event Coreference	Jun 1, 2014	Coreference ResolutionNatural Language Inference	—Unverified
Finetuning Language Models to Emit Linguistic Expressions of Uncertainty	Sep 18, 2024	Decision MakingQuestion Answering	—Unverified
Do You Know That Florence Is Packed with Visitors? Evaluating State-of-the-art Models of Speaker Commitment	Jul 1, 2019	NegationQuestion Answering	—Unverified
LLMs May Perform MCQA by Selecting the Least Incorrect Option	Feb 2, 2024	Multiple-choiceMultiple Choice Question Answering (MCQA)	—Unverified
A Concrete Chinese NLP Pipeline	Jun 1, 2015	Coreference ResolutionEntity Linking	—Unverified
Evaluation of ChatGPT on Biomedical Tasks: A Zero-Shot Comparison with Fine-Tuned Generative Transformers	Jun 7, 2023	Document ClassificationLanguage Modeling	—Unverified
Evaluation of Dataset Selection for Pre-Training and Fine-Tuning Transformer Language Models for Clinical Question Answering	May 1, 2020	Machine Reading ComprehensionQuestion Answering	—Unverified
Evaluation of Faithfulness Using the Longest Supported Subsequence	Aug 23, 2023	DiversityQuestion Answering	—Unverified
Evaluation of General Large Language Models in Contextually Assessing Semantic Concepts Extracted from Adult Critical Care Electronic Health Record Notes	Jan 24, 2024	NegationQuestion Answering	—Unverified
Beyond Text: Implementing Multimodal Large Language Model-Powered Multi-Agent Systems Using a No-Code Platform	Jan 1, 2025	Code GenerationImage Generation	—Unverified
Evaluation of medium-large Language Models at zero-shot closed book generative question answering	May 19, 2023	Generative Question AnsweringQuestion Answering	—Unverified
Evaluation of Question Answering Systems: Complexity of judging a natural language	Sep 10, 2022	Question AnsweringWord Embeddings	—Unverified
Evaluation of RAG Metrics for Question Answering in the Telecom Domain	Jul 15, 2024	Question AnsweringRAG	—Unverified
Evaluation of Review Summaries via Question-Answering	Dec 1, 2021	Question Answering	—Unverified
Can You Unpack That? Learning to Rewrite Questions-in-Context	Nov 1, 2019	Question Answering	—Unverified
Do We Need to Differentiate Negative Candidates Before Training a Neural Ranker?	Nov 16, 2021	Data AugmentationQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 141 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified