Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 951–975 of 10817 papers

Title	Date	Tasks	Status	Hype	Score
DeCEMBERT: Learning from Noisy Instructional Videos via Dense Captions and Entropy Minimization	Jun 1, 2021	Question AnsweringRetrieval	CodeCode Available	1	5
Interacted Object Grounding in Spatio-Temporal Human-Object Interactions	Dec 27, 2024	Human-Object Interaction DetectionObject	CodeCode Available	1	5
Declaration-based Prompt Tuning for Visual Question Answering	May 5, 2022	Image-text matchingLanguage Modeling	CodeCode Available	1	5
Decker: Double Check with Heterogeneous Knowledge for Commonsense Fact Verification	May 10, 2023	Fact VerificationQuestion Answering	CodeCode Available	1	5
Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder	Jun 28, 2025	Image SegmentationLarge Language Model	CodeCode Available	1	5
A Dataset for Interactive Vision-Language Navigation with Unknown Command Feasibility	Feb 4, 2022	Common Sense ReasoningQuestion Answering	CodeCode Available	1	5
Comprehensive Visual Question Answering on Point Clouds through Compositional Scene Manipulation	Dec 22, 2021	Common Sense ReasoningQuestion Answering	CodeCode Available	1	5
Inter-GPS: Interpretable Geometry Problem Solving with Formal Language and Symbolic Reasoning	May 10, 2021	Arithmetic ReasoningGeometry Problem Solving	CodeCode Available	1	5
FiTs: Fine-grained Two-stage Training for Knowledge-aware Question Answering	Feb 23, 2023	Knowledge GraphsMedical Question Answering	CodeCode Available	1	5
Deep Learning Based Text Classification: A Comprehensive Review	Apr 6, 2020	BIG-bench Machine LearningClassification	CodeCode Available	1	5
Deep Multimodal Neural Architecture Search	Apr 25, 2020	DecoderImage-text matching	CodeCode Available	1	5
MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation	Dec 28, 2023	GSM8KLanguage Model Evaluation	CodeCode Available	1	5
Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue Questions with LLMs	May 19, 2023	Question AnsweringSemantic Similarity	CodeCode Available	1	5
Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot Relation Extractors	May 18, 2023	Instruction FollowingQuestion Answering	CodeCode Available	1	5
Investigating Entity Knowledge in BERT with Simple Neural End-To-End Entity Linking	Mar 11, 2020	Entity DisambiguationEntity Linking	CodeCode Available	1	5
Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering	Jun 16, 2023	Image CaptioningQuestion Answering	CodeCode Available	1	5
FloodNet: A High Resolution Aerial Imagery Dataset for Post Flood Scene Understanding	Dec 5, 2020	image-classificationImage Classification	CodeCode Available	1	5
ChainCQG: Flow-Aware Conversational Question Generation	Feb 4, 2021	Conversational Question AnsweringQuestion Answering	CodeCode Available	1	5
ECONET: Effective Continual Pretraining of Language Models for Event Temporal Reasoning	Dec 30, 2020	Continual PretrainingLanguage Modelling	CodeCode Available	1	5
Fine-Grained Evaluation of Large Vision-Language Models in Autonomous Driving	Mar 27, 2025	AttributeAutonomous Driving	CodeCode Available	1	5
DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering	May 2, 2020	Question Answering	CodeCode Available	1	5
It is AI's Turn to Ask Humans a Question: Question-Answer Pair Generation for Children's Story Books	Sep 8, 2021	Answer GenerationData Augmentation	CodeCode Available	1	5
JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension	Feb 3, 2022	ArticlesMachine Reading Comprehension	CodeCode Available	1	5
JDocQA: Japanese Document Question Answering Dataset for Generative Language Models	Mar 28, 2024	HallucinationQuestion Answering	CodeCode Available	1	5
CC-Riddle: A Question Answering Dataset of Chinese Character Riddles	Jun 28, 2022	General KnowledgeLanguage Modelling	CodeCode Available	1	5

Show:10 25 50

← PrevPage 39 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified