Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4001–4050 of 10817 papers

Title	Date	Tasks	Status	Score
Handling Ontology Gaps in Semantic Parsing	Jun 27, 2024	HallucinationQuestion Answering	CodeCode Available	5
HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild	Mar 7, 2024	HallucinationQuestion Answering	CodeCode Available	5
Harnessing the Power of Prompt-based Techniques for Generating School-Level Questions using Large Language Models	Dec 2, 2023	DescriptiveQuestion Answering	CodeCode Available	5
HICD: Hallucination-Inducing via Attention Dispersion for Contrastive Decoding to Mitigate Hallucinations in Large Language Models	Mar 17, 2025	HallucinationQuestion Answering	CodeCode Available	5
How FaR Are Large Language Models From Agents with Theory-of-Mind?	Oct 4, 2023	In-Context LearningQuestion Answering	CodeCode Available	5
VisFIS: Visual Feature Importance Supervision with Right-for-the-Right-Reason Objectives	Jun 22, 2022	Feature ImportanceQuestion Answering	CodeCode Available	5
HalLoc: Token-level Localization of Hallucinations for Vision Language Models	Jun 12, 2025	HallucinationImage Captioning	CodeCode Available	5
HaleLab_NITK@SMM4H’22: Adaptive Learning Model for Effective Detection, Extraction and Normalization of Adverse Drug Events from Social Media Data	Oct 1, 2022	Question Answering	CodeCode Available	5
Hallucination Benchmark in Medical Visual Question Answering	Jan 11, 2024	HallucinationMedical Visual Question Answering	CodeCode Available	5
A Memory-Network Based Solution for Multivariate Time-Series Forecasting	Sep 6, 2018	Multivariate Time Series ForecastingQuestion Answering	CodeCode Available	5
HAIBU-ReMUD: Reasoning Multimodal Ultrasound Dataset and Model Bridging to General Specific Domains	Jun 9, 2025	DiagnosticQuestion Answering	CodeCode Available	5
Hallucination Mitigation Prompts Long-term Video Understanding	Jun 17, 2024	Answer GenerationHallucination	CodeCode Available	5
Complex Sequential Question Answering: Towards Learning to Converse Over Linked Question Answer Pairs with a Knowledge Graph	Jan 31, 2018	Knowledge GraphsQuestion Answering	CodeCode Available	5
HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models	Dec 29, 2024	HallucinationObject	CodeCode Available	5
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types	Sep 14, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
GW-MoE: Resolving Uncertainty in MoE Router with Global Workspace Theory	Jun 18, 2024	Code GenerationMathematical Problem-Solving	CodeCode Available	5
GUIDEQ: Framework for Guided Questioning for progressive informational collection and classification	Nov 8, 2024	Question Answeringtext-classification	CodeCode Available	5
Fine-Grained Stateful Knowledge Exploration: A Novel Paradigm for Integrating Knowledge Graphs with Large Language Models	Jan 24, 2024	Knowledge Base Question AnsweringKnowledge Graphs	CodeCode Available	5
Guiding Extractive Summarization with Question-Answering Rewards	Apr 4, 2019	Extractive SummarizationQuestion Answering	CodeCode Available	5
GYM at Qur’an QA 2023 Shared Task: Multi-Task Transfer Learning for Quranic Passage Retrieval and Question Answering with Large Language Models	Dec 7, 2023	Multi-Task LearningPassage Retrieval	CodeCode Available	5
Towards Flexible Evaluation for Generative Visual Question Answering	Aug 1, 2024	DecoderGenerative Visual Question Answering	CodeCode Available	5
Faithful Embeddings for Knowledge Base Queries	Apr 7, 2020	Question Answering	CodeCode Available	5
HALO: Hallucination Analysis and Learning Optimization to Empower LLMs with Retrieval-Augmented Context for Guided Clinical Decision Making	Sep 16, 2024	Answer GenerationDecision Making	CodeCode Available	5
A dataset and exploration of models for understanding video data through fill-in-the-blank question-answering	Nov 23, 2016	DescriptiveLanguage Modeling	CodeCode Available	5
Grounded Graph Decoding Improves Compositional Generalization in Question Answering	Nov 5, 2021	Question Answering	CodeCode Available	5
FriendsQA: A New Large-Scale Deep Video Understanding Dataset with Fine-grained Topic Categorization for Story Videos	Dec 22, 2024	Language ModellingLarge Language Model	CodeCode Available	5
Scaling Reasoning can Improve Factuality in Large Language Models	May 16, 2025	Knowledge GraphsLarge Language Model	CodeCode Available	5
Comparing Humans and Models on a Similar Scale: Towards Cognitive Gender Bias Evaluation in Coreference Resolution	May 24, 2023	coreference-resolutionCoreference Resolution	CodeCode Available	5
Visual Question Answering: Datasets, Algorithms, and Future Challenges	Oct 5, 2016	Question AnsweringVisual Question Answering	CodeCode Available	5
Comparing Attention-based Convolutional and Recurrent Neural Networks: Success and Limitations in Machine Reading Comprehension	Aug 27, 2018	Machine Reading ComprehensionQuestion Answering	CodeCode Available	5
AmazonQA: A Review-Based Question Answering Task	Aug 12, 2019	Answer GenerationInformation Retrieval	CodeCode Available	5
Comparative Study of Machine Learning Models and BERT on SQuAD	May 22, 2020	BIG-bench Machine LearningQuestion Answering	CodeCode Available	5
Graph Learning in the Era of LLMs: A Survey from the Perspective of Data, Models, and Tasks	Dec 17, 2024	Domain GeneralizationGraph Learning	CodeCode Available	5
A mathematical model for universal semantics	Jul 29, 2019	modelQuestion Answering	CodeCode Available	5
GraphextQA: A Benchmark for Evaluating Graph-Enhanced Large Language Models	Oct 12, 2023	Answer GenerationHallucination	CodeCode Available	5
From Feature Importance to Natural Language Explanations Using LLMs with RAG	Jul 30, 2024	counterfactualCounterfactual Reasoning	CodeCode Available	5
A Mathematical Framework, a Taxonomy of Modeling Paradigms, and a Suite of Learning Techniques for Neural-Symbolic Systems	Jul 12, 2024	image-classificationImage Classification	CodeCode Available	5
Compact Trilinear Interaction for Visual Question Answering	Sep 26, 2019	BenchmarkingKnowledge Distillation	CodeCode Available	5
Graph-Based Reasoning over Heterogeneous External Knowledge for Commonsense Question Answering	Sep 9, 2019	Common Sense ReasoningGraph Attention	CodeCode Available	5
Grounding Answers for Visual Questions Asked by Visually Impaired People	Feb 4, 2022	Question AnsweringVisual Question Answering	CodeCode Available	5
CommVQA: Situating Visual Question Answering in Communicative Contexts	Feb 22, 2024	Question AnsweringVisual Question Answering	CodeCode Available	5
Community Question Answering Entity Linking via Leveraging Auxiliary Data	May 24, 2022	Community Question AnsweringEntity Linking	CodeCode Available	5
A Little Human Data Goes A Long Way	Oct 17, 2024	Fact VerificationQuestion Answering	CodeCode Available	5
Gold: A Global and Local-aware Denoising Framework for Commonsense Knowledge Graph Noise Detection	Oct 18, 2023	DenoisingKnowledge Graphs	CodeCode Available	5
GNN2R: Weakly-Supervised Rationale-Providing Question Answering over Knowledge Graphs	Dec 4, 2023	Explanation GenerationGraph Neural Network	CodeCode Available	5
Gotta: Generative Few-shot Question Answering by Prompt-based Cloze Data Augmentation	Jun 7, 2023	Data AugmentationQuestion Answering	CodeCode Available	5
GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models	Aug 29, 2024	Bias DetectionFairness	CodeCode Available	5
Commonsense Properties from Query Logs and Question Answering Forums	May 27, 2019	Question Answering	CodeCode Available	5
Commonsense Knowledge Mining from Term Definitions	Feb 1, 2021	Knowledge GraphsNatural Language Understanding	CodeCode Available	5
A Dataset for Spatiotemporal-Sensitive POI Question Answering	May 16, 2025	Question AnsweringRAG	CodeCode Available	5

Show:10 25 50

← PrevPage 81 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified