Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2881–2890 of 10817 papers

Title	Date	Tasks	Status	Hype
DOCMASTER: A Unified Platform for Annotation, Training, & Inference in Document Question-Answering	Mar 30, 2024	Privacy PreservingQuestion Answering	—Unverified	0
Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training	Mar 30, 2024	Contrastive LearningQuestion Answering	CodeCode Available	0
How Robust are the Tabular QA Models for Scientific Tables? A Study using Customized Dataset	Mar 30, 2024	Question Answering	CodeCode Available	0
Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks	Mar 30, 2024	Few-Shot LearningInstruction Following	—Unverified	0
Linguistic Calibration of Long-Form Generations	Mar 30, 2024	Decision MakingForm	CodeCode Available	1
Multi-hop Question Answering under Temporal Knowledge Editing	Mar 30, 2024	knowledge editingMulti-hop Question Answering	—Unverified	0
Uncovering Bias in Large Vision-Language Models with Counterfactuals	Mar 29, 2024	counterfactualQuestion Answering	—Unverified	0
Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models	Mar 29, 2024	Question AnsweringVisual Question Answering	CodeCode Available	2
VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis	Mar 29, 2024	HallucinationImage Captioning	CodeCode Available	2
MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models	Mar 29, 2024	Language ModelingLanguage Modelling	CodeCode Available	0

Show:10 25 50

← PrevPage 289 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified