Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1401–1450 of 10817 papers

Title	Date	Tasks	Status	Hype	Score
Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese Medical Exam Dataset	Jun 5, 2023	BenchmarkingMultiple-choice	CodeCode Available	1	5
Improving Selective Visual Question Answering by Learning from Your Peers	Jun 14, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1	5
Analyzing Knowledge Graph Embedding Methods from a Multi-Embedding Interaction Perspective	Mar 27, 2019	Graph EmbeddingKnowledge Graph Embedding	CodeCode Available	1	5
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies	Jan 6, 2021	Question AnsweringStrategyQA	CodeCode Available	1	5
Leveraging Semantic Parsing for Relation Linking over Knowledge Bases	Sep 16, 2020	Abstract Meaning RepresentationQuestion Answering	CodeCode Available	1	5
In-Context Learning with Iterative Demonstration Selection	Oct 15, 2023	Few-Shot LearningIn-Context Learning	CodeCode Available	1	5
Increasing Model Capacity for Free: A Simple Strategy for Parameter Efficient Fine-tuning	Jul 1, 2024	image-classificationImage Classification	CodeCode Available	1	5
Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word Alignment	Jun 11, 2021	DenoisingLanguage Modeling	CodeCode Available	1	5
Clues Before Answers: Generation-Enhanced Multiple-Choice QA	Apr 30, 2022	DecoderMultiple-choice	CodeCode Available	1	5
CL-ReLKT: Cross-lingual Language Knowledge Transfer for Multilingual Retrieval Question Answering	Jul 1, 2022	Language ModelingLanguage Modelling	CodeCode Available	1	5
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning	Oct 23, 2024	Image CaptioningInstruction Following	CodeCode Available	1	5
CLTR: An End-to-End, Transformer-Based System for Cell Level Table Retrieval and Table Question Answering	Jun 8, 2021	Question AnsweringRetrieval	CodeCode Available	1	5
Benchmarking Retrieval-Augmented Multimomal Generation for Document Question Answering	May 22, 2025	BenchmarkingEvidence Selection	CodeCode Available	1	5
An Information Bottleneck Perspective for Effective Noise Filtering on Retrieval-Augmented Generation	Jun 3, 2024	Answer GenerationQuestion Answering	CodeCode Available	1	5
Improving Retrieval-Augmented Large Language Models via Data Importance Learning	Jul 6, 2023	ImputationQuestion Answering	CodeCode Available	1	5
LinkQ: An LLM-Assisted Visual Interface for Knowledge Graph Question-Answering	Jun 7, 2024	Graph Question AnsweringLanguage Modeling	CodeCode Available	1	5
In Defense of Grid Features for Visual Question Answering	Jan 10, 2020	Image CaptioningQuestion Answering	CodeCode Available	1	5
Discovering Spatio-Temporal Rationales for Video Question Answering	Jul 22, 2023	Question AnsweringVideo Question Answering	CodeCode Available	1	5
InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective	Oct 5, 2020	Natural Language InferenceQuestion Answering	CodeCode Available	1	5
Attention-Based Context Aware Reasoning for Situation Recognition	Jun 1, 2020	Action RecognitionFine-grained Action Recognition	CodeCode Available	1	5
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint	Jan 11, 2024	Question AnsweringReinforcement Learning (RL)	CodeCode Available	1	5
Improving LLM Reasoning with Multi-Agent Tree-of-Thought Validator Agent	Sep 17, 2024	GSM8KQuestion Answering	CodeCode Available	1	5
CliniQG4QA: Generating Diverse Questions for Domain Adaptation of Clinical Question Answering	Oct 30, 2020	Domain AdaptationQuestion Answering	CodeCode Available	1	5
Distilling Knowledge from Reader to Retriever for Question Answering	Dec 8, 2020	Information RetrievalKnowledge Distillation	CodeCode Available	1	5
Distantly-Supervised Evidence Retrieval Enables Question Answering without Evidence Annotation	Oct 10, 2021	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1	5
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter	Oct 2, 2019	Hate Speech DetectionKnowledge Distillation	CodeCode Available	1	5
CLIP-Guided Vision-Language Pre-training for Question Answering in 3D Scenes	Apr 12, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1	5
Improving Embedded Knowledge Graph Multi-hop Question Answering by introducing Relational Chain Reasoning	Oct 25, 2021	Graph Question AnsweringImplicit Relations	CodeCode Available	1	5
Clinical Reading Comprehension: A Thorough Analysis of the emrQA Dataset	May 1, 2020	Machine Reading ComprehensionQuestion Answering	CodeCode Available	1	5
BERT-kNN: Adding a kNN Search Component to Pretrained Language Models for Better QA	May 2, 2020	Information RetrievalLanguage Modeling	CodeCode Available	1	5
Improving Factual Consistency of Abstractive Summarization via Question Answering	May 10, 2021	Abstractive Text SummarizationQuestion Answering	CodeCode Available	1	5
Clinical Temporal Relation Extraction with Probabilistic Soft Logic Regularization and Global Inference	Dec 16, 2020	Feature EngineeringMedical Question Answering	CodeCode Available	1	5
Clinical-Longformer and Clinical-BigBird: Transformers for long clinical sequences	Jan 27, 2022	Clinical KnowledgeDocument Classification	CodeCode Available	1	5
LLaVA-SpaceSGG: Visual Instruct Tuning for Open-vocabulary Scene Graph Generation with Enhanced Spatial Relations	Dec 9, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
Improving BERT with Syntax-aware Local Attention	Dec 30, 2020	Machine TranslationQuestion Answering	CodeCode Available	1	5
Improving Language Understanding by Generative Pre-Training	Jun 11, 2018	Cloze TestDocument Classification	CodeCode Available	1	5
LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation	May 19, 2023	Image GenerationInstruction Following	CodeCode Available	1	5
BERTVision -- A Parameter-Efficient Approach for Question Answering	Feb 24, 2022	GPUQuestion Answering	CodeCode Available	1	5
Improving Multi-hop Knowledge Base Question Answering by Learning Intermediate Supervision Signals	Jan 11, 2021	Knowledge Base Question AnsweringQuestion Answering	CodeCode Available	1	5
Clickbait Spoiling via Question Answering and Passage Retrieval	Mar 19, 2022	Passage RetrievalQuestion Answering	CodeCode Available	1	5
BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation	Feb 18, 2024	GPUQuestion Answering	CodeCode Available	1	5
DocNLI: A Large-scale Dataset for Document-level Natural Language Inference	Jun 17, 2021	Natural Language InferenceQuestion Answering	CodeCode Available	1	5
CLEVR-X: A Visual Reasoning Dataset for Natural Language Explanations	Apr 5, 2022	Explanation GenerationQuestion Answering	CodeCode Available	1	5
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages	Jan 27, 2022	Cross-Modal RetrievalFew-Shot Learning	CodeCode Available	1	5
DocVQA: A Dataset for VQA on Document Images	Jul 1, 2020	Question AnsweringReading Comprehension	CodeCode Available	1	5
Locate Then Ask: Interpretable Stepwise Reasoning for Multi-hop Question Answering	Aug 22, 2022	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	1	5
Does Time Have Its Place? Temporal Heads: Where Language Models Recall Time-specific Information	Feb 20, 2025	Question Answering	CodeCode Available	1	5
LogEval: A Comprehensive Benchmark Suite for Large Language Models In Log Analysis	Jul 2, 2024	Anomaly DetectionFault Diagnosis	CodeCode Available	1	5
Better Question-Answering Models on a Budget	Apr 24, 2023	General KnowledgeQuestion Answering	CodeCode Available	1	5
CLEVR-Math: A Dataset for Compositional Language, Visual and Mathematical Reasoning	Aug 10, 2022	MathMathematical Reasoning	CodeCode Available	1	5

Show:10 25 50

← PrevPage 29 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified