Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1431–1440 of 10817 papers

Title	Date	Tasks	Status	Hype
A Survey of Medical Vision-and-Language Applications and Their Techniques	Nov 19, 2024	Decision MakingDiagnostic	CodeCode Available	1
Neon: News Entity-Interaction Extraction for Enhanced Question Answering	Nov 19, 2024	ArticlesOpen Information Extraction	—Unverified	0
Mitigating Knowledge Conflicts in Language Model-Driven Question Answering	Nov 18, 2024	Document SummarizationHallucination	—Unverified	0
MC-LLaVA: Multi-Concept Personalized Vision-Language Model	Nov 18, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
Value-Spectrum: Quantifying Preferences of Vision-Language Models via Value Decomposition in Social Media Contexts	Nov 18, 2024	BenchmarkingMultimodal Large Language Model	CodeCode Available	0
Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning	Nov 17, 2024	Image CaptioningLanguage Modeling	CodeCode Available	0
A Comprehensive Survey on Visual Question Answering Datasets and Algorithms	Nov 17, 2024	DiagnosticMiscellaneous	—Unverified	0
Memory-Augmented Multimodal LLMs for Surgical VQA via Self-Contained Inquiry	Nov 17, 2024	Question AnsweringScene Understanding	—Unverified	0
BackdoorMBTI: A Backdoor Learning Multimodal Benchmark Tool Kit for Backdoor Defense Evaluation	Nov 17, 2024	Action Recognitionbackdoor defense	CodeCode Available	1
ForPKG: A Framework for Constructing Forestry Policy Knowledge Graph and Application Analysis	Nov 17, 2024	graph constructionKnowledge Graphs	CodeCode Available	0

Show:10 25 50

← PrevPage 144 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified