Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–510 of 10817 papers

Title	Date	Tasks	Status	Hype
Crosslingual Generalization through Multitask Finetuning	Nov 3, 2022	Coreference ResolutionCross-Lingual Transfer	CodeCode Available	2
PoseScript: Linking 3D Human Poses and Natural Language	Oct 21, 2022	Cross-Modal RetrievalImage Captioning	CodeCode Available	2
Perception Test: A Diagnostic Benchmark for Multimodal Models	Oct 19, 2022	DiagnosticMultiple-choice	CodeCode Available	2
MuGER^2: Multi-Granularity Evidence Retrieval and Reasoning for Hybrid Question Answering	Oct 19, 2022	NavigateQuestion Answering	CodeCode Available	2
Deep Bidirectional Language-Knowledge Graph Pretraining	Oct 17, 2022	Common Sense ReasoningKnowledge Graphs	CodeCode Available	2
Video in 10 Bits: Few-Bit VideoQA for Efficiency and Privacy	Oct 15, 2022	Feature CompressionQuestion Answering	CodeCode Available	2
Towards a Unified Multi-Dimensional Evaluator for Text Generation	Oct 13, 2022	nlg evaluationQuestion Answering	CodeCode Available	2
Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning	Oct 12, 2022	Contrastive LearningForm	CodeCode Available	2
Measuring and Narrowing the Compositionality Gap in Language Models	Oct 7, 2022	Question Answering	CodeCode Available	2
Retrieval Augmented Visual Question Answering with Outside Knowledge	Oct 7, 2022	Answer GenerationDiagnostic	CodeCode Available	2

Show:10 25 50

← PrevPage 51 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified