Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1576–1600 of 10817 papers

Title	Date	Tasks	Status	Hype
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies	Jan 6, 2021	Question AnsweringStrategyQA	CodeCode Available	1
DialSim: A Real-Time Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents	Jun 19, 2024	Dialogue UnderstandingQuestion Answering	CodeCode Available	1
MedBLIP: Bootstrapping Language-Image Pre-training from 3D Medical Images and Texts	May 18, 2023	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	1
Differentiable Reasoning on Large Knowledge Bases and Natural Language	Dec 17, 2019	Link PredictionQuestion Answering	CodeCode Available	1
MedCoT: Medical Chain of Thought via Hierarchical Expert	Dec 18, 2024	DiagnosticMedical Visual Question Answering	CodeCode Available	1
Why So Gullible? Enhancing the Robustness of Retrieval-Augmented Models against Counterfactual Noise	May 2, 2023	counterfactualFew-Shot Learning	CodeCode Available	1
Ascle: A Python Natural Language Processing Toolkit for Medical Text Generation	Nov 28, 2023	Machine TranslationQuestion Answering	CodeCode Available	1
Dialog Inpainting: Turning Documents into Dialogs	May 18, 2022	Conversational Question AnsweringQuestion Answering	CodeCode Available	1
DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs	Jun 24, 2024	Question AnsweringRetrieval	CodeCode Available	1
DialogLM: Pre-trained Model for Long Dialogue Understanding and Summarization	Sep 6, 2021	abstractive question answeringDenoising	CodeCode Available	1
Development and bilingual evaluation of Japanese medical large language model within reasonably low computational resources	Sep 18, 2024	GPULanguage Modeling	CodeCode Available	1
Detecting Hate Speech in Multi-modal Memes	Dec 29, 2020	Binary ClassificationHate Speech Detection	CodeCode Available	1
MemeCap: A Dataset for Captioning and Interpreting Memes	May 23, 2023	Image CaptioningMeme Captioning	CodeCode Available	1
Memory-Based Model Editing at Scale	Jun 13, 2022	counterfactualDialogue Generation	CodeCode Available	1
MemSum-DQA: Adapting An Efficient Long Document Extractive Summarizer for Document Question Answering	Oct 10, 2023	Extractive SummarizationQuestion Answering	CodeCode Available	1
DeVLBert: Learning Deconfounded Visio-Linguistic Representations	Aug 16, 2020	Image RetrievalQuestion Answering	CodeCode Available	1
MetaGen Blended RAG: Higher Accuracy for Domain-Specific Q&A Without Fine-Tuning	May 23, 2025	Few-Shot LearningQuestion Answering	CodeCode Available	1
Answering Questions by Meta-Reasoning over Multiple Chains of Thought	Apr 25, 2023	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	1
Meta-Learning Online Adaptation of Language Models	May 24, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
METGEN: A Module-Based Entailment Tree Generation Framework for Answer Explanation	May 5, 2022	Question Answeringvalid	CodeCode Available	1
MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models	Jun 17, 2024	BenchmarkingFact Checking	CodeCode Available	1
Answering Questions on COVID-19 in Real-Time	Jun 29, 2020	Information RetrievalQuestion Answering	CodeCode Available	1
MICO: A Multi-alternative Contrastive Learning Framework for Commonsense Knowledge Representation	Oct 14, 2022	Contrastive LearningKnowledge Graph Completion	CodeCode Available	1
A Survey on Efficient Vision-Language Models	Apr 13, 2025	Image CaptioningQuestion Answering	CodeCode Available	1
Designing a Minimal Retrieve-and-Read System for Open-Domain Question Answering	Apr 15, 2021	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1

Show:10 25 50

← PrevPage 64 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified