Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3571–3580 of 10817 papers

Title	Date	Tasks	Status	Hype
Unifying Corroborative and Contributive Attributions in Large Language Models	Nov 20, 2023	Language ModelingLanguage Modelling	—Unverified	0
Filling the Image Information Gap for VQA: Prompting Large Language Models to Proactively Ask Questions	Nov 20, 2023	Question AnsweringVisual Question Answering	CodeCode Available	0
Taiyi: A Bilingual Fine-Tuned Large Language Model for Diverse Biomedical Tasks	Nov 20, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
FinanceBench: A New Benchmark for Financial Question Answering	Nov 20, 2023	How to refund a wrong transaction in PhonePeQuestion Answering	CodeCode Available	3
Towards Robust Text Retrieval with Progressive Learning	Nov 20, 2023	Machine Reading ComprehensionQuestion Answering	CodeCode Available	0
Zero-Shot Question Answering over Financial Documents using Large Language Models	Nov 19, 2023	Language ModelingLanguage Modelling	—Unverified	0
LLM aided semi-supervision for Extractive Dialog Summarization	Nov 19, 2023	Extractive SummarizationQuestion Answering	—Unverified	0
Journey of Hallucination-minimized Generative AI Solutions for Financial Decision Makers	Nov 18, 2023	Answer GenerationDecision Making	—Unverified	0
An Embodied Generalist Agent in 3D World	Nov 18, 2023	3D dense captioning3D Question Answering (3D-QA)	CodeCode Available	2
Orca 2: Teaching Small Language Models How to Reason	Nov 18, 2023	Arithmetic ReasoningCommon Sense Reasoning	—Unverified	0

Show:10 25 50

← PrevPage 358 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified