Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3041–3050 of 10817 papers

Title	Date	Tasks	Status
Dynamic-TinyBERT: Boost TinyBERT's Inference Efficiency by Dynamic Sequence Length	Nov 18, 2021	Computational EfficiencyHyperparameter Optimization	—Unverified
Biomedical Entity Linking with Triple-aware Pre-Training	Aug 28, 2023	Entity LinkingQuestion Answering	—Unverified
A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching	Mar 5, 2024	ChatbotCommunity Question Answering	—Unverified
Evaluating LLMs on Document-Based QA: Exact Answer Selection and Numerical Extraction using Cogtale dataset	Nov 14, 2023	Answer SelectionInformation Retrieval	—Unverified
Answerability Fields: Answerable Location Estimation via Diffusion Models	Jul 26, 2024	Question AnsweringScene Understanding	—Unverified
Dynamic Strategy Planning for Efficient Question Answering with Large Language Models	Oct 30, 2024	Multi-hop Question AnsweringQuestion Answering	—Unverified
An Overview Of Temporal Commonsense Reasoning and Acquisition	Jul 28, 2023	Common Sense ReasoningLanguage Modelling	—Unverified
Dynamic Stochastic Decoding Strategy for Open-Domain Dialogue Generation	Jun 12, 2024	Dialogue GenerationDiversity	—Unverified
DynamicVL: Benchmarking Multimodal Large Language Models for Dynamic City Understanding	May 27, 2025	BenchmarkingChange Detection	—Unverified
Biomedical Document Retrieval for Clinical Decision Support System	Jul 1, 2018	Information RetrievalLearning-To-Rank	—Unverified

Show:10 25 50

← PrevPage 305 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified