Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1901–1950 of 10817 papers

Title	Date	Tasks	Status	Hype	Score
Check It Again: Progressive Visual Question Answering via Visual Entailment	Jun 8, 2021	Question AnsweringVisual Entailment	CodeCode Available	1	5
Check It Again:Progressive Visual Question Answering via Visual Entailment	Aug 1, 2021	Question AnsweringVisual Entailment	CodeCode Available	1	5
Complex Temporal Question Answering on Knowledge Graphs	Sep 18, 2021	16kEntity Embeddings	CodeCode Available	1	5
Compositional 4D Dynamic Scenes Understanding with Physics Priors for Video Question Answering	Jun 2, 2024	counterfactualCounterfactual Reasoning	CodeCode Available	1	5
Complex Reasoning over Logical Queries on Commonsense Knowledge Graphs	Mar 12, 2024	Knowledge GraphsMultiple-choice	CodeCode Available	1	5
Complex Knowledge Base Question Answering: A Survey	Aug 15, 2021	Information RetrievalKnowledge Base Question Answering	CodeCode Available	1	5
ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification	Apr 29, 2025	DiagnosticQuestion Answering	CodeCode Available	1	5
Just Ask: Learning to Answer Questions from Millions of Narrated Videos	Dec 1, 2020	Question AnsweringQuestion Generation	CodeCode Available	1	5
Compositional Exemplars for In-context Learning	Feb 11, 2023	Code GenerationContrastive Learning	CodeCode Available	1	5
Synthesizing Event-centric Knowledge Graphs of Daily Activities Using Virtual Space	Jul 30, 2023	Decision MakingEmbodied Question Answering	CodeCode Available	1	5
ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences	Nov 10, 2023	Dialogue GenerationLanguage Modeling	CodeCode Available	1	5
K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters	Feb 5, 2020	Dependency ParsingEntity Typing	CodeCode Available	1	5
ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models	Feb 27, 2025	Question AnsweringRAG	CodeCode Available	1	5
KBQA-o1: Agentic Knowledge Base Question Answering with Monte Carlo Tree Search	Jan 31, 2025	Heuristic SearchKnowledge Base Question Answering	CodeCode Available	1	5
Learning Trimodal Relation for AVQA with Missing Modality	Jul 23, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	1	5
Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning	May 12, 2025	Language ModelingLanguage Modelling	CodeCode Available	1	5
Learning to Rank Question-Answer Pairs using Hierarchical Recurrent Encoder with Latent Topic Clustering	Oct 10, 2017	Answer SelectionClustering	CodeCode Available	1	5
A Step Closer to Comprehensive Answers: Constrained Multi-Stage Question Decomposition with Large Language Models	Nov 13, 2023	Question Answering	CodeCode Available	1	5
Learning to Retrieve Passages without Supervision	Dec 14, 2021	Contrastive LearningOpen-Domain Question Answering	CodeCode Available	1	5
Fine-tuned LLMs Know More, Hallucinate Less with Few-Shot Sequence-to-Sequence Semantic Parsing over Wikidata	May 23, 2023	Knowledge Base Question AnsweringKnowledge Graphs	CodeCode Available	1	5
mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs	May 16, 2025	Information RetrievalKnowledge Graphs	CodeCode Available	1	5
Learning to Poison Large Language Models for Downstream Manipulation	Feb 21, 2024	Data PoisoningIn-Context Learning	CodeCode Available	1	5
Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering	Nov 24, 2019	Question AnsweringRetrieval	CodeCode Available	1	5
Kformer: Knowledge Injection in Transformer Feed-Forward Layers	Jan 15, 2022	Language ModellingMedical Question Answering	CodeCode Available	1	5
Less is More: Data-Efficient Complex Question Answering over Knowledge Bases	Oct 29, 2020	DecoderMulti-hop Question Answering	CodeCode Available	1	5
KGE-CL: Contrastive Learning of Tensor Decomposition Based Knowledge Graph Embeddings	Dec 9, 2021	Contrastive LearningGraph Embedding	CodeCode Available	1	5
Learning to Explain: Datasets and Models for Identifying Valid Reasoning Chains in Multihop Question-Answering	Oct 7, 2020	Question AnsweringReasoning Chain Explanations	CodeCode Available	1	5
KG-Retriever: Efficient Knowledge Indexing for Retrieval-Augmented Large Language Models	Dec 7, 2024	Multi-hop Question AnsweringNavigate	CodeCode Available	1	5
Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot Relation Extractors	May 18, 2023	Instruction FollowingQuestion Answering	CodeCode Available	1	5
KILT: a Benchmark for Knowledge Intensive Language Tasks	Sep 4, 2020	Entity LinkingFact Checking	CodeCode Available	1	5
CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge	Nov 2, 2018	Common Sense ReasoningMultiple-choice	CodeCode Available	1	5
TAP: Text-Aware Pre-training for Text-VQA and Text-Caption	Dec 8, 2020	Caption GenerationLanguage Modeling	CodeCode Available	1	5
A Dataset for Medical Instructional Video Classification and Question Answering	Jan 30, 2022	ClassificationQuestion Answering	CodeCode Available	1	5
KLEJ: Comprehensive Benchmark for Polish Language Understanding	May 1, 2020	named-entity-recognitionNamed Entity Recognition	CodeCode Available	1	5
Knowledge-Augmented Language Model Verification	Oct 19, 2023	Language ModelingLanguage Modelling	CodeCode Available	1	5
Knowledge Base Question Answering by Case-based Reasoning over Subgraphs	Feb 22, 2022	Knowledge Base Question AnsweringQuestion Answering	CodeCode Available	1	5
Task-Oriented Multi-User Semantic Communications for VQA Task	Aug 16, 2021	Question AnsweringSemantic Communication	CodeCode Available	1	5
Knowledge-Based Video Question Answering with Unsupervised Scene Descriptions	Jul 17, 2020	Question AnsweringVideo Question Answering	CodeCode Available	1	5
Citekit: A Modular Toolkit for Large Language Model Citation Generation	Aug 6, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
CityEQA: A Hierarchical LLM Agent on Embodied Question Answering Benchmark in City Space	Feb 18, 2025	Embodied Question AnsweringQuestion Answering	CodeCode Available	1	5
AssistSR: Task-oriented Video Segment Retrieval for Personal AI Assistant	Nov 30, 2021	Question AnsweringRetrieval	CodeCode Available	1	5
CKBP v2: Better Annotation and Reasoning for Commonsense Knowledge Base Population	Apr 20, 2023	Knowledge Base PopulationQuestion Answering	CodeCode Available	1	5
Learning to Discretely Compose Reasoning Module Networks for Video Captioning	Jul 17, 2020	DecoderQuestion Answering	CodeCode Available	1	5
Learning to Ask Like a Physician	Jun 6, 2022	Question AnsweringQuestion Generation	CodeCode Available	1	5
Knowledge-driven Data Construction for Zero-shot Evaluation in Commonsense Question Answering	Nov 7, 2020	Language ModelingLanguage Modelling	CodeCode Available	1	5
CLAPNQ: Cohesive Long-form Answers from Passages in Natural Questions for RAG systems	Apr 2, 2024	FormLong Form Question Answering	CodeCode Available	1	5
A Memory Efficient Baseline for Open Domain Question Answering	Dec 30, 2020	Dimensionality ReductionOpen-Domain Question Answering	CodeCode Available	1	5
ClarQ: A large-scale and diverse dataset for Clarification Question Generation	Jun 10, 2020	Question AnsweringQuestion Generation	CodeCode Available	1	5
Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer	Aug 16, 2023	DecoderQuestion Answering	CodeCode Available	1	5
Learning to Attribute with Attention	Apr 18, 2025	AttributeLanguage Modeling	CodeCode Available	1	5

Show:10 25 50

← PrevPage 39 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified