Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1326–1350 of 10817 papers

Title	Date	Tasks	Status	Hype
DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs	Jun 24, 2024	Question AnsweringRetrieval	CodeCode Available	1
DialogLM: Pre-trained Model for Long Dialogue Understanding and Summarization	Sep 6, 2021	abstractive question answeringDenoising	CodeCode Available	1
3D-Aware Visual Question Answering about Parts, Poses and Occlusions	Oct 27, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1
Development and bilingual evaluation of Japanese medical large language model within reasonably low computational resources	Sep 18, 2024	GPULanguage Modeling	CodeCode Available	1
Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions	Feb 28, 2024	BenchmarkingMultiple-choice	CodeCode Available	1
DeVLBert: Learning Deconfounded Visio-Linguistic Representations	Aug 16, 2020	Image RetrievalQuestion Answering	CodeCode Available	1
Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs	Feb 17, 2024	Knowledge GraphsMulti-hop Question Answering	CodeCode Available	1
Designing a Minimal Retrieve-and-Read System for Open-Domain Question Answering	Apr 15, 2021	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1
From Representation to Reasoning: Towards both Evidence and Commonsense Reasoning for Video Question-Answering	May 30, 2022	counterfactualDescriptive	CodeCode Available	1
T3: Tree-Autoencoder Constrained Adversarial Text Generation for Targeted Attack	Dec 22, 2019	Adversarial AttackAdversarial Text	CodeCode Available	1
Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization	Oct 5, 2023	AllLanguage Modeling	CodeCode Available	1
FunQA: Towards Surprising Video Comprehension	Jun 26, 2023	Question AnsweringText Generation	CodeCode Available	1
Detecting and Preventing Hallucinations in Large Vision Language Models	Aug 11, 2023	16kHallucination	CodeCode Available	1
Dense Passage Retrieval for Open-Domain Question Answering	Apr 10, 2020	Open-Domain Question AnsweringPassage Retrieval	CodeCode Available	1
Densely Connected Attention Propagation for Reading Comprehension	Nov 10, 2018	AllOpen-Domain Question Answering	CodeCode Available	1
BackdoorMBTI: A Backdoor Learning Multimodal Benchmark Tool Kit for Backdoor Defense Evaluation	Nov 17, 2024	Action Recognitionbackdoor defense	CodeCode Available	1
GameEval: Evaluating LLMs on Conversational Games	Aug 19, 2023	Question Answering	CodeCode Available	1
Describe Anything Model for Visual Question Answering on Text-rich Images	Jul 16, 2025	DescriptiveLanguage Modeling	CodeCode Available	1
Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL Models	May 31, 2023	Cross-Modal RetrievalQuestion Answering	CodeCode Available	1
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA	May 13, 2020	Image CaptioningMulti-Label Classification	CodeCode Available	1
Generation-Augmented Retrieval for Open-domain Question Answering	Sep 17, 2020	Natural QuestionsOpen-Domain Question Answering	CodeCode Available	1
Delaying Interaction Layers in Transformer-based Encoders for Efficient Open Domain Question Answering	Oct 16, 2020	Information RetrievalManagement	CodeCode Available	1
AtomR: Atomic Operator-Empowered Large Language Models for Heterogeneous Knowledge Reasoning	Nov 25, 2024	HallucinationQuestion Answering	CodeCode Available	1
Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transformers	Mar 29, 2021	DecoderImage Segmentation	CodeCode Available	1
DELIFT: Data Efficient Language model Instruction Fine Tuning	Nov 7, 2024	Language ModelingLanguage Modelling	CodeCode Available	1

Show:10 25 50

← PrevPage 54 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified