Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5826–5850 of 10817 papers

Title	Date	Tasks	Status
Annotating Educational Questions for Student Response Analysis	May 1, 2018	Question AnsweringWord Embeddings	—Unverified
Identifying Supporting Facts for Multi-hop Question Answering with Document Graph Networks	Oct 1, 2019	Multi-hop Question AnsweringQuestion Answering	—Unverified
LiveVLM: Efficient Online Video Understanding via Streaming-Oriented KV Cache and Retrieval	May 21, 2025	Autonomous DrivingQuestion Answering	—Unverified
Identifying Shopping Intent in Product QA for Proactive Recommendations	Apr 9, 2024	FrictionMixture-of-Experts	—Unverified
LiVLR: A Lightweight Visual-Linguistic Reasoning Framework for Video Question Answering	Nov 29, 2021	DiversityQuestion Answering	—Unverified
利用图像描述与知识图谱增强表示的视觉问答(Exploiting Image Captions and External Knowledge as Representation Enhancement for Visual Question Answering)	Aug 1, 2021	Image CaptioningQuestion Answering	—Unverified
LK2022 at Qur’an QA 2022: Simple Transformers Model for Finding Answers to Questions from Qur’an	Jun 1, 2022	Question AnsweringReading Comprehension	—Unverified
Conversational Question Answering on Heterogeneous Sources	Apr 25, 2022	Conversational Question AnsweringDecoder	—Unverified
A Theoretically Grounded Benchmark for Evaluating Machine Commonsense	Mar 23, 2022	Generative Question AnsweringMultiple-choice	—Unverified
A Deep Cascade Model for Multi-Document Reading Comprehension	Nov 28, 2018	Machine Reading ComprehensionQuestion Answering	—Unverified
MAPWise: Evaluating Vision-Language Models for Advanced Map Queries	Aug 30, 2024	Question Answering	—Unverified
MARAGS: A Multi-Adapter System for Multi-Task Retrieval Augmented Generation Question Answering	Sep 5, 2024	Question AnsweringRAG	—Unverified
Identifying Purpose Behind Electoral Tweets	Nov 5, 2013	Question Answering	—Unverified
Llamas Know What GPTs Don't Show: Surrogate Models for Confidence Estimation	Nov 15, 2023	Question Answering	—Unverified
Domain Mismatch Doesn’t Always Prevent Cross-lingual Transfer Learning	Jun 1, 2022	Bilingual Lexicon InductionCross-Lingual Transfer	—Unverified
Identifying Participation of Individual Verbs or VerbNet Classes in the Causative Alternation	Jan 1, 2019	Question Answering	—Unverified
LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning	Jun 17, 2024	Image CaptioningQuestion Answering	—Unverified
Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque	May 1, 2020	Conversational Question AnsweringCross-Lingual Transfer	—Unverified
Identifying Nuggets of Information in GALE Distillation Evaluation	May 1, 2012	Machine TranslationQuestion Answering	—Unverified
Identifying Constant and Unique Relations by using Time-Series Text	Jul 1, 2012	Natural Language InferenceQuestion Answering	—Unverified
Conversational Question Answering: A Survey	Jun 2, 2021	Conversational Question AnsweringQuestion Answering	—Unverified
A temporal expression recognition system for medical documents by	Dec 1, 2015	Named Entity Recognition (NER)Question Answering	—Unverified
LLaVA-Octopus: Unlocking Instruction-Driven Adaptive Projector Fusion for Video Understanding	Jan 9, 2025	Language ModelingLanguage Modelling	—Unverified
Identifying Causal Relations Using Parallel Wikipedia Articles	Aug 1, 2016	ArticlesCausal Inference	—Unverified
Identifying and Mitigating Position Bias of Multi-image Vision-Language Models	Mar 18, 2025	PositionQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 234 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified