Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3921–3930 of 10817 papers

Title	Date	Tasks	Status
Fine-tuning Strategies for Domain Specific Question Answering under Low Annotation Budget Constraints	Jan 17, 2024	Language ModelingLanguage Modelling	—Unverified
Fine-tuning Transformer-based Encoder for Turkish Language Understanding Tasks	Jan 30, 2024	named-entity-recognitionNamed Entity Recognition	—Unverified
Fine-tuning vs From Scratch: Do Vision & Language Models Have Similar Capabilities on Out-of-Distribution Visual Question Answering?	Jun 1, 2022	Question AnsweringVisual Question Answering	—Unverified
CL-CrossVQA: A Continual Learning Benchmark for Cross-Domain Visual Question Answering	Nov 19, 2022	Continual LearningQuestion Answering	—Unverified
FinLLMs: A Framework for Financial Reasoning Dataset Generation with Large Language Models	Jan 19, 2024	Dataset GenerationQuestion Answering	—Unverified
FinMath: Injecting a Tree-structured Solver for Question Answering over Financial Reports	Jun 1, 2022	Question Answering	—Unverified
Beyond Attention: Toward Machines with Intrinsic Higher Mental States	May 2, 2025	Question Answering	—Unverified
Finnish SQuAD: A Simple Approach to Machine Translation of Span Annotations	Jan 10, 2025	Machine TranslationQuestion Answering	—Unverified
Annotating Educational Questions for Student Response Analysis	May 1, 2018	Question AnsweringWord Embeddings	—Unverified
Dolphin: A Challenging and Diverse Benchmark for Arabic NLG	May 24, 2023	Dialogue GenerationDiversity	—Unverified

Show:10 25 50

← PrevPage 393 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified