Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3911–3920 of 10817 papers

Title	Date	Tasks	Status	Score
Fine-tuning Large Language Models for Improving Factuality in Legal Question Answering	Jan 11, 2025	HallucinationQuestion Answering	CodeCode Available	5
A Russian Jeopardy! Data Set for Question-Answering Systems	Dec 4, 2021	named-entity-recognitionNamed Entity Recognition	CodeCode Available	5
Evaluating Fine-Tuning Efficiency of Human-Inspired Learning Strategies in Medical Question Answering	Aug 15, 2024	Medical Question AnsweringNatural Language Understanding	CodeCode Available	5
High-Order Attention Models for Visual Question Answering	Nov 12, 2017	Question AnsweringVisual Question Answering	CodeCode Available	5
ArxivBench: Can LLMs Assist Researchers in Conducting Research?	Apr 6, 2025	ArticlesQuestion Answering	CodeCode Available	5
Uncovering Hidden Semantics of Set Information in Knowledge Bases	Mar 6, 2020	PositionQuestion Answering	CodeCode Available	5
Hierarchical Transformer for Task Oriented Dialog Systems	Oct 24, 2020	Natural Language UnderstandingQuestion Answering	CodeCode Available	5
Understanding Attention for Vision-and-Language Tasks	Aug 17, 2022	Image GenerationImage Retrieval	CodeCode Available	5
Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes	May 6, 2024	Decision MakingFairness	CodeCode Available	5
A Study on Large Language Models' Limitations in Multiple-Choice Question Answering	Jan 15, 2024	Multiple-choiceQuestion Answering	CodeCode Available	5

Show:10 25 50

← PrevPage 392 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified