Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10201–10225 of 10817 papers

Title	Date	Tasks	Status
Stochastic RAG: End-to-End Retrieval-Augmented Generation through Expected Utility Maximization	May 5, 2024	Fact VerificationOpen-Domain Question Answering	—Unverified
STOC-TOT: Stochastic Tree-of-Thought with Constrained Decoding for Complex Reasoning in Multi-Hop Question Answering	Jul 4, 2024	HallucinationMulti-hop Question Answering	—Unverified
Story Comprehension for Predicting What Happens Next	Sep 1, 2017	Common Sense ReasoningNatural Language Understanding	—Unverified
Story Generation from Visual Inputs: Techniques, Related Tasks, and Challenges	Jun 4, 2024	Question AnsweringStory Generation	—Unverified
StoryQA: Story Grounded Question Answering Dataset	Jan 16, 2022	Question Answering	—Unverified
Straight to the Facts: Learning Knowledge Base Retrieval for Factual Visual Question Answering	Sep 4, 2018	Factual Visual Question AnsweringGeneral Knowledge	—Unverified
Streaming Long Video Understanding with Large Language Models	May 25, 2024	Question AnsweringVideo Understanding	—Unverified
Streamlining Biomedical Research with Specialized LLMs	Apr 15, 2025	Decision MakingDialogue Generation	—Unverified
STREET: A Multi-Task Structured Reasoning and Explanation Benchmark	Feb 13, 2023	Question Answering	—Unverified
StressTest: Can YOUR Speech LM Handle the Stress?	May 28, 2025	Question AnsweringSentence	—Unverified
Stress Test Evaluation of Transformer-based Models in Natural Language Understanding Tasks	Feb 14, 2020	Natural Language InferenceNatural Language Understanding	—Unverified
Strong and Efficient Baselines for Open Domain Conversational Question Answering	Oct 23, 2023	Conversational Question AnsweringDecoder	—Unverified
Strong Baselines for Simple Question Answering over Knowledge Graphs with and without Neural Networks	Dec 5, 2017	Entity LinkingKnowledge Graphs	—Unverified
StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding	Aug 13, 2019	Language ModelingLanguage Modelling	—Unverified
Structural analysis of an all-purpose question answering model	Apr 13, 2021	AllQuestion Answering	—Unverified
Structural Embedding of Syntactic Trees for Machine Comprehension	Mar 2, 2017	Question AnsweringReading Comprehension	—Unverified
Structural Encoding and Pre-training Matter: Adapting BERT for Table-Based Fact Verification	Apr 1, 2021	Fact VerificationGraph Neural Network	—Unverified
StructuralLM: Structural Pre-training for Form Understanding	May 24, 2021	document-image-classificationDocument Image Classification	—Unverified
Structural Representations for Learning Relations between Pairs of Texts	Jul 1, 2015	Feature EngineeringNatural Language Inference	—Unverified
Structure Causal Models and LLMs Integration in Medical Visual Question Answering	May 5, 2025	Causal InferenceMedical Visual Question Answering	—Unverified
Structured Alignment Networks for Matching Sentences	Oct 1, 2018	Natural Language InferenceQuestion Answering	—Unverified
Structured and Logical Representations of Assamese Text for Question-Answering System	Dec 1, 2012	Question Answering	—Unverified
Structured Attention Networks	Feb 3, 2017	Machine TranslationNatural Language Inference	—Unverified
Structured Context and High-Coverage Grammar for Conversational Question Answering over Knowledge Graphs	Sep 1, 2021	Conversational Question AnsweringKnowledge Graphs	—Unverified
Structured Event Retrieval over Microblog Archives	Jun 1, 2012	Question AnsweringRetrieval	—Unverified

Show:10 25 50

← PrevPage 409 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified