Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2201–2225 of 10817 papers

Title	Date	Tasks	Status	Hype
Discourse Analysis via Questions and Answers: Parsing Dependency Structures of Questions Under Discussion	Oct 12, 2022	Dependency ParsingQuestion Answering	CodeCode Available	1
CogMG: Collaborative Augmentation Between Large Language Model and Knowledge Graph	Jun 25, 2024	Knowledge Graph CompletionKnowledge Graphs	CodeCode Available	1
Development and bilingual evaluation of Japanese medical large language model within reasonably low computational resources	Sep 18, 2024	GPULanguage Modeling	CodeCode Available	1
Consistency-preserving Visual Question Answering in Medical Imaging	Jun 27, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1
Consistency Regularization for Cross-Lingual Fine-Tuning	Jun 15, 2021	Machine TranslationQuestion Answering	CodeCode Available	1
DeVLBert: Learning Deconfounded Visio-Linguistic Representations	Aug 16, 2020	Image RetrievalQuestion Answering	CodeCode Available	1
Learning Video Context as Interleaved Multimodal Sequences	Jul 31, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Detecting Hate Speech in Multi-modal Memes	Dec 29, 2020	Binary ClassificationHate Speech Detection	CodeCode Available	1
DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs	Jun 24, 2024	Question AnsweringRetrieval	CodeCode Available	1
Generative Data Augmentation for Commonsense Reasoning	Apr 24, 2020	Common Sense ReasoningCoreference Resolution	CodeCode Available	1
Designing a Minimal Retrieve-and-Read System for Open-Domain Question Answering	Apr 15, 2021	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1
General-Purpose Question-Answering with Macaw	Sep 6, 2021	Generative Question AnsweringMultiple-choice	CodeCode Available	1
Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs	May 28, 2020	Question-Answer-GenerationQuestion Answering	CodeCode Available	1
Constructing A Multi-hop QA Dataset for Comprehensive Evaluation of Reasoning Steps	Nov 2, 2020	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	1
Describe Anything Model for Visual Question Answering on Text-rich Images	Jul 16, 2025	DescriptiveLanguage Modeling	CodeCode Available	1
Code-Style In-Context Learning for Knowledge-Based Question Answering	Sep 9, 2023	Code GenerationIn-Context Learning	CodeCode Available	1
Cross-modal Causal Relation Alignment for Video Question Grounding	Mar 5, 2025	Contrastive Learningcross-modal alignment	CodeCode Available	1
Constructing Benchmarks and Interventions for Combating Hallucinations in LLMs	Apr 15, 2024	HallucinationLanguage Modeling	CodeCode Available	1
GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and reusing ModulEs	Nov 8, 2023	Question AnsweringReferring Expression	CodeCode Available	1
Detecting and Preventing Hallucinations in Large Vision Language Models	Aug 11, 2023	16kHallucination	CodeCode Available	1
Dialog Inpainting: Turning Documents into Dialogs	May 18, 2022	Conversational Question AnsweringQuestion Answering	CodeCode Available	1
DrBenchmark: A Large Language Understanding Evaluation Benchmark for French Biomedical Domain	Feb 20, 2024	named-entity-recognitionNamed Entity Recognition	CodeCode Available	1
Few-shot In-context Learning for Knowledge Base Question Answering	May 2, 2023	In-Context LearningKnowledge Base Question Answering	CodeCode Available	1
How to Get Your LLM to Generate Challenging Problems for Evaluation	Feb 20, 2025	Code CompletionMath	CodeCode Available	1
Learning to Contrast the Counterfactual Samples for Robust Visual Question Answering	Nov 1, 2020	Contrastive Learningcounterfactual	CodeCode Available	1

Show:10 25 50

← PrevPage 89 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified