Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2821–2830 of 10817 papers

Title	Date	Tasks	Status	Hype
Identifying Shopping Intent in Product QA for Proactive Recommendations	Apr 9, 2024	FrictionMixture-of-Experts	—Unverified	0
MoReVQA: Exploring Modular Reasoning Models for Video Question Answering	Apr 9, 2024	EgoSchemaMultiple-choice	—Unverified	0
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks	Apr 9, 2024	Answer SelectionLong-Context Understanding	CodeCode Available	2
SurveyAgent: A Conversational System for Personalized and Efficient Research Survey	Apr 9, 2024	ManagementQuestion Answering	—Unverified	0
Visually Descriptive Language Model for Vector Graphics Reasoning	Apr 9, 2024	DescriptiveLanguage Modeling	CodeCode Available	9
The Hallucinations Leaderboard -- An Open Effort to Measure Hallucinations in Large Language Models	Apr 8, 2024	Question AnsweringReading Comprehension	—Unverified	0
MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering	Apr 8, 2024	BenchmarkingMedical Question Answering	—Unverified	0
Semantic Stealth: Adversarial Text Attacks on NLP Using Several Methods	Apr 8, 2024	Adversarial TextMachine Translation	—Unverified	0
Enhancing Software-Related Information Extraction via Single-Choice Question Answering with Large Language Models	Apr 8, 2024	DescriptiveIn-Context Learning	—Unverified	0
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding	Apr 8, 2024	GPUMultiple-choice	CodeCode Available	3

Show:10 25 50

← PrevPage 283 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified