Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4376–4400 of 10817 papers

Title	Date	Tasks	Status	Hype
NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario	May 24, 2023	Autonomous DrivingQuestion Answering	CodeCode Available	2
Getting MoRE out of Mixture of Language Model Reasoning Experts	May 24, 2023	Answer SelectionLanguage Modeling	—Unverified	0
Cross-lingual QA: A Key to Unlocking In-context Cross-lingual Performance	May 24, 2023	Cross-Lingual TransferIn-Context Learning	—Unverified	0
SAIL: Search-Augmented Instruction Learning	May 24, 2023	DenoisingFact Checking	—Unverified	0
Peek Across: Improving Multi-Document Modeling via Cross-Document Question-Answering	May 24, 2023	Query-focused SummarizationQuestion Answering	CodeCode Available	0
A Question Answering Framework for Decontextualizing User-facing Snippets from Scientific Documents	May 24, 2023	Question AnsweringQuestion Generation	—Unverified	0
The Art of SOCRATIC QUESTIONING: Recursive Thinking with Large Language Models	May 24, 2023	Language ModellingMath	CodeCode Available	1
Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering	May 24, 2023	Question AnsweringVisual Question Answering	—Unverified	0
InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration in Improving the Performance of Information Extraction	May 24, 2023	Question AnsweringQuestion Generation	—Unverified	0
Dolphin: A Challenging and Diverse Benchmark for Arabic NLG	May 24, 2023	Dialogue GenerationDiversity	—Unverified	0
MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop Questions	May 24, 2023	knowledge editingLanguage Modelling	CodeCode Available	1
Allies: Prompting Large Language Model with Beam Search	May 24, 2023	Language ModelingLanguage Modelling	—Unverified	0
Measuring Faithful and Plausible Visual Grounding in VQA	May 24, 2023	Question AnsweringVisual Grounding	CodeCode Available	0
C-STS: Conditional Semantic Textual Similarity	May 24, 2023	Information RetrievalLanguage Model Evaluation	CodeCode Available	1
Visually-Situated Natural Language Understanding with Contrastive Reading Model and Frozen Large Language Models	May 24, 2023	document understandingImage Captioning	CodeCode Available	1
The Role of Output Vocabulary in T2T LMs for SPARQL Semantic Parsing	May 24, 2023	Graph Question AnsweringQuestion Answering	CodeCode Available	0
Context-Aware Transformer Pre-Training for Answer Sentence Selection	May 24, 2023	Question AnsweringSentence	—Unverified	0
Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic	May 24, 2023	Logical ReasoningMath	CodeCode Available	0
Learning Answer Generation using Supervision from Automatic Question Answering Evaluators	May 24, 2023	Answer GenerationQuestion Answering	—Unverified	0
GRILL: Grounded Vision-language Pre-training via Aligning Text and Image Regions	May 24, 2023	ObjectQuestion Answering	—Unverified	0
Using Natural Language Explanations to Rescale Human Judgments	May 24, 2023	Question Answering	CodeCode Available	0
Meta-Learning Online Adaptation of Language Models	May 24, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
Mitigating Temporal Misalignment by Discarding Outdated Facts	May 24, 2023	Question AnsweringRetrieval	CodeCode Available	0
Comparing Humans and Models on a Similar Scale: Towards Cognitive Gender Bias Evaluation in Coreference Resolution	May 24, 2023	coreference-resolutionCoreference Resolution	CodeCode Available	0
Selectively Answering Ambiguous Questions	May 24, 2023	Question Answering	—Unverified	0

Show:10 25 50

← PrevPage 176 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified