Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–525 of 10817 papers

Title	Date	Tasks	Status	Hype
Crosslingual Generalization through Multitask Finetuning	Nov 3, 2022	Coreference ResolutionCross-Lingual Transfer	CodeCode Available	2
PoseScript: Linking 3D Human Poses and Natural Language	Oct 21, 2022	Cross-Modal RetrievalImage Captioning	CodeCode Available	2
Perception Test: A Diagnostic Benchmark for Multimodal Models	Oct 19, 2022	DiagnosticMultiple-choice	CodeCode Available	2
MuGER^2: Multi-Granularity Evidence Retrieval and Reasoning for Hybrid Question Answering	Oct 19, 2022	NavigateQuestion Answering	CodeCode Available	2
Deep Bidirectional Language-Knowledge Graph Pretraining	Oct 17, 2022	Common Sense ReasoningKnowledge Graphs	CodeCode Available	2
Video in 10 Bits: Few-Bit VideoQA for Efficiency and Privacy	Oct 15, 2022	Feature CompressionQuestion Answering	CodeCode Available	2
Towards a Unified Multi-Dimensional Evaluator for Text Generation	Oct 13, 2022	nlg evaluationQuestion Answering	CodeCode Available	2
Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning	Oct 12, 2022	Contrastive LearningForm	CodeCode Available	2
Retrieval Augmented Visual Question Answering with Outside Knowledge	Oct 7, 2022	Answer GenerationDiagnostic	CodeCode Available	2
Measuring and Narrowing the Compositionality Gap in Language Models	Oct 7, 2022	Question Answering	CodeCode Available	2
Ask Me Anything: A simple strategy for prompting language models	Oct 5, 2022	Coreference ResolutionNatural Language Inference	CodeCode Available	2
LambdaKG: A Library for Pre-trained Language Model-Based Knowledge Graph Embeddings	Oct 1, 2022	Graph Representation LearningKnowledge Graph Completion	CodeCode Available	2
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering	Sep 20, 2022	Multimodal Deep LearningMultimodal Reasoning	CodeCode Available	2
Atlas: Few-shot Learning with Retrieval Augmented Language Models	Aug 5, 2022	Fact CheckingFew-Shot Learning	CodeCode Available	2
AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model	Aug 2, 2022	Causal Language ModelingCommon Sense Reasoning	CodeCode Available	2
Revealing Single Frame Bias for Video-and-Language Learning	Jun 7, 2022	Action RecognitionFine-grained Action Recognition	CodeCode Available	2
Egocentric Video-Language Pretraining	Jun 3, 2022	Action RecognitionContrastive Learning	CodeCode Available	2
GIT: A Generative Image-to-text Transformer for Vision and Language	May 27, 2022	DecoderImage Captioning	CodeCode Available	2
QAMPARI: An Open-domain Question Answering Benchmark for Questions with Many Answers from Multiple Paragraphs	May 25, 2022	Answer GenerationNatural Questions	CodeCode Available	2
RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder	May 24, 2022	DecoderInformation Retrieval	CodeCode Available	2
Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion	May 4, 2022	Information RetrievalKnowledge Graph Completion	CodeCode Available	2
PaLM: Scaling Language Modeling with Pathways	Apr 5, 2022	Auto DebuggingCode Generation	CodeCode Available	2
LinkBERT: Pretraining Language Models with Document Links	Mar 29, 2022	Document ClassificationLanguage Modeling	CodeCode Available	2
STaR: Bootstrapping Reasoning With Reasoning	Mar 28, 2022	Common Sense ReasoningLanguage Modeling	CodeCode Available	2
MedMCQA : A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering	Mar 27, 2022	DiversityMultiple-choice	CodeCode Available	2

Show:10 25 50

← PrevPage 21 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified