Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4351–4400 of 10817 papers

Title	Date	Tasks	Status	Hype
Exploiting Abstract Meaning Representation for Open-Domain Question Answering	May 26, 2023	Abstract Meaning RepresentationDiversity	CodeCode Available	1
Expand, Rerank, and Retrieve: Query Reranking for Open-Domain Question Answering	May 26, 2023	Open-Domain Question AnsweringPassage Retrieval	CodeCode Available	1
Zero-shot Visual Question Answering with Language Model Feedback	May 26, 2023	Language ModelingLanguage Modelling	CodeCode Available	0
Submodular Minimax Optimization: Finding Effective Sets	May 26, 2023	dialog state trackingPrompt Engineering	—Unverified	0
An Empirical Comparison of LM-based Question and Answer Generation Methods	May 26, 2023	Answer GenerationData Augmentation	—Unverified	0
RFiD: Towards Rational Fusion-in-Decoder for Open-Domain Question Answering	May 26, 2023	DecoderNatural Questions	CodeCode Available	0
BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks	May 26, 2023	Image CaptioningMedical Visual Question Answering	CodeCode Available	2
Mindstorms in Natural Language-Based Societies of Mind	May 26, 2023	3D GenerationImage Captioning	—Unverified	0
The Dangers of trusting Stochastic Parrots: Faithfulness and Trust in Open-domain Conversational Question Answering	May 25, 2023	Conversational Question AnsweringOpen-Domain Question Answering	—Unverified	0
UFO: Unified Fact Obtaining for Commonsense Question Answering	May 25, 2023	Fact SelectionQuestion Answering	CodeCode Available	0
BUCA: A Binary Classification Approach to Unsupervised Commonsense Question Answering	May 25, 2023	Binary ClassificationKnowledge Graphs	CodeCode Available	0
Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation	May 25, 2023	Hallucination Pair-wise Detection (1-ref)Informativeness	CodeCode Available	1
Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models	May 24, 2023	ChatbotNatural Language Understanding	CodeCode Available	2
EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought	May 24, 2023	Image CaptioningLanguage Modelling	—Unverified	0
Revisiting Sentence Union Generation as a Testbed for Text Consolidation	May 24, 2023	Document SummarizationLong Form Question Answering	CodeCode Available	0
OpenPI2.0: An Improved Dataset for Entity Tracking in Texts	May 24, 2023	Question Answering	CodeCode Available	1
ToMChallenges: A Principle-Guided Dataset and Diverse Evaluation Tasks for Exploring Theory of Mind	May 24, 2023	Multiple-choiceQuestion Answering	CodeCode Available	0
Extracting Psychological Indicators Using Question Answering	May 24, 2023	Question Answering	—Unverified	0
Chain-of-Questions Training with Latent Answers for Robust Multistep Question Answering	May 24, 2023	Language ModelingLanguage Modelling	—Unverified	0
EXnet: Efficient In-context Learning for Data-less Text classification	May 24, 2023	In-Context LearningQuestion Answering	—Unverified	0
Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM	May 24, 2023	Language ModellingQuestion Answering	CodeCode Available	0
TACR: A Table-alignment-based Cell-selection and Reasoning Model for Hybrid Question-Answering	May 24, 2023	Question AnsweringRetrieval	—Unverified	0
CAR: Conceptualization-Augmented Reasoner for Zero-Shot Commonsense Question Answering	May 24, 2023	Question Answering	CodeCode Available	0
Reasoning over Hierarchical Question Decomposition Tree for Explainable Question Answering	May 24, 2023	Question Answering	—Unverified	0
Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy	May 24, 2023	Fact VerificationMulti-hop Question Answering	—Unverified	0
NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario	May 24, 2023	Autonomous DrivingQuestion Answering	CodeCode Available	2
Getting MoRE out of Mixture of Language Model Reasoning Experts	May 24, 2023	Answer SelectionLanguage Modeling	—Unverified	0
Cross-lingual QA: A Key to Unlocking In-context Cross-lingual Performance	May 24, 2023	Cross-Lingual TransferIn-Context Learning	—Unverified	0
SAIL: Search-Augmented Instruction Learning	May 24, 2023	DenoisingFact Checking	—Unverified	0
Peek Across: Improving Multi-Document Modeling via Cross-Document Question-Answering	May 24, 2023	Query-focused SummarizationQuestion Answering	CodeCode Available	0
A Question Answering Framework for Decontextualizing User-facing Snippets from Scientific Documents	May 24, 2023	Question AnsweringQuestion Generation	—Unverified	0
The Art of SOCRATIC QUESTIONING: Recursive Thinking with Large Language Models	May 24, 2023	Language ModellingMath	CodeCode Available	1
Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering	May 24, 2023	Question AnsweringVisual Question Answering	—Unverified	0
InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration in Improving the Performance of Information Extraction	May 24, 2023	Question AnsweringQuestion Generation	—Unverified	0
Dolphin: A Challenging and Diverse Benchmark for Arabic NLG	May 24, 2023	Dialogue GenerationDiversity	—Unverified	0
MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop Questions	May 24, 2023	knowledge editingLanguage Modelling	CodeCode Available	1
Allies: Prompting Large Language Model with Beam Search	May 24, 2023	Language ModelingLanguage Modelling	—Unverified	0
Measuring Faithful and Plausible Visual Grounding in VQA	May 24, 2023	Question AnsweringVisual Grounding	CodeCode Available	0
C-STS: Conditional Semantic Textual Similarity	May 24, 2023	Information RetrievalLanguage Model Evaluation	CodeCode Available	1
Visually-Situated Natural Language Understanding with Contrastive Reading Model and Frozen Large Language Models	May 24, 2023	document understandingImage Captioning	CodeCode Available	1
The Role of Output Vocabulary in T2T LMs for SPARQL Semantic Parsing	May 24, 2023	Graph Question AnsweringQuestion Answering	CodeCode Available	0
Context-Aware Transformer Pre-Training for Answer Sentence Selection	May 24, 2023	Question AnsweringSentence	—Unverified	0
Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic	May 24, 2023	Logical ReasoningMath	CodeCode Available	0
Learning Answer Generation using Supervision from Automatic Question Answering Evaluators	May 24, 2023	Answer GenerationQuestion Answering	—Unverified	0
GRILL: Grounded Vision-language Pre-training via Aligning Text and Image Regions	May 24, 2023	ObjectQuestion Answering	—Unverified	0
Using Natural Language Explanations to Rescale Human Judgments	May 24, 2023	Question Answering	CodeCode Available	0
Meta-Learning Online Adaptation of Language Models	May 24, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
Mitigating Temporal Misalignment by Discarding Outdated Facts	May 24, 2023	Question AnsweringRetrieval	CodeCode Available	0
Comparing Humans and Models on a Similar Scale: Towards Cognitive Gender Bias Evaluation in Coreference Resolution	May 24, 2023	coreference-resolutionCoreference Resolution	CodeCode Available	0
Selectively Answering Ambiguous Questions	May 24, 2023	Question Answering	—Unverified	0

Show:10 25 50

← PrevPage 88 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified