Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3951–4000 of 10817 papers

Title	Date	Tasks	Status	Score
Hierarchical Transformer for Task Oriented Dialog Systems	Oct 24, 2020	Natural Language UnderstandingQuestion Answering	CodeCode Available	5
High-Order Attention Models for Visual Question Answering	Nov 12, 2017	Question AnsweringVisual Question Answering	CodeCode Available	5
Hierarchical Memory Networks for Answer Selection on Unknown Words	Sep 28, 2016	Answer SelectionQuestion Answering	CodeCode Available	5
Compressing And Debiasing Vision-Language Pre-Trained Models for Visual Question Answering	Oct 26, 2022	Question AnsweringVisual Question Answering	CodeCode Available	5
Hierarchical Deep Multi-modal Network for Medical Visual Question Answering	Sep 27, 2020	DescriptiveMedical Visual Question Answering	CodeCode Available	5
CLIFT: Analysing Natural Distribution Shift on Question Answering Models in Clinical Domain	Oct 19, 2023	Question Answering	CodeCode Available	5
HICD: Hallucination-Inducing via Attention Dispersion for Contrastive Decoding to Mitigate Hallucinations in Large Language Models	Mar 17, 2025	HallucinationQuestion Answering	CodeCode Available	5
Towards Answering Climate Questionnaires from Unstructured Climate Reports	Jan 11, 2023	Question Answeringtext-classification	CodeCode Available	5
Hierarchical Graph Network for Multi-hop Question Answering	Nov 9, 2019	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	5
HeroNet: A Hybrid Retrieval-Generation Network for Conversational Bots	Jan 29, 2023	Multi-Task LearningQuestion Answering	CodeCode Available	5
Long Context Question Answering via Supervised Contrastive Learning	Dec 16, 2021	Contrastive LearningQuestion Answering	CodeCode Available	5
Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering	Apr 8, 2019	Question AnsweringVideo Question Answering	CodeCode Available	5
Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts?	Oct 17, 2024	AllLanguage Modeling	CodeCode Available	5
Helmsman of the Masses? Evaluate the Opinion Leadership of Large Language Models in the Werewolf Game	Apr 2, 2024	Question Answering	CodeCode Available	5
Focal Visual-Text Attention for Memex Question Answering	Dec 14, 2018	Memex Question AnsweringQuestion Answering	CodeCode Available	5
Focal Visual-Text Attention for Visual Question Answering	Jun 5, 2018	Memex Question AnsweringQuestion Answering	CodeCode Available	5
HeteroQA: Learning towards Question-and-Answering through Multiple Information Sources via Heterogeneous Graph Modeling	Dec 27, 2021	ArticlesCommunity Question Answering	CodeCode Available	5
HC3 Plus: A Semantic-Invariant Human ChatGPT Comparison Corpus	Sep 6, 2023	Question Answering	CodeCode Available	5
HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language	May 28, 2023	Machine TranslationMultimodal Machine Translation	CodeCode Available	5
HCqa: Hybrid and Complex Question Answering on Textual Corpus and Knowledge Graph	Nov 24, 2018	Knowledge Graphsnamed-entity-recognition	CodeCode Available	5
HeySQuAD: A Spoken Question Answering Dataset	Apr 26, 2023	Question Answering	CodeCode Available	5
Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes	May 6, 2024	Decision MakingFairness	CodeCode Available	5
Handling Ontology Gaps in Semantic Parsing	Jun 27, 2024	HallucinationQuestion Answering	CodeCode Available	5
Composition Vision-Language Understanding via Segment and Depth Anything Model	Jun 7, 2024	Question AnsweringVisual Question Answering (VQA)	CodeCode Available	5
Compositional Task-Oriented Parsing as Abstractive Question Answering	May 4, 2022	abstractive question answeringQuestion Answering	CodeCode Available	5
HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild	Mar 7, 2024	HallucinationQuestion Answering	CodeCode Available	5
HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models	Dec 29, 2024	HallucinationObject	CodeCode Available	5
Hallucination Mitigation Prompts Long-term Video Understanding	Jun 17, 2024	Answer GenerationHallucination	CodeCode Available	5
VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos	May 29, 2025	Question AnsweringVideo Generation	CodeCode Available	5
HALO: Hallucination Analysis and Learning Optimization to Empower LLMs with Retrieval-Augmented Context for Guided Clinical Decision Making	Sep 16, 2024	Answer GenerationDecision Making	CodeCode Available	5
HalLoc: Token-level Localization of Hallucinations for Vision Language Models	Jun 12, 2025	HallucinationImage Captioning	CodeCode Available	5
ForecastTKGQuestions: A Benchmark for Temporal Question Answering and Forecasting over Temporal Knowledge Graphs	Aug 12, 2022	Knowledge GraphsQuestion Answering	CodeCode Available	5
Compositional Language Understanding with Text-based Relational Reasoning	Nov 7, 2018	Common Sense ReasoningInductive Bias	CodeCode Available	5
Hallucination Benchmark in Medical Visual Question Answering	Jan 11, 2024	HallucinationMedical Visual Question Answering	CodeCode Available	5
Harnessing the Power of Prompt-based Techniques for Generating School-Level Questions using Large Language Models	Dec 2, 2023	DescriptiveQuestion Answering	CodeCode Available	5
Compositionality as Lexical Symmetry	Jan 30, 2022	Data AugmentationInductive Bias	CodeCode Available	5
Compositional Image-Text Matching and Retrieval by Grounding Entities	May 4, 2025	Image CaptioningImage-text matching	CodeCode Available	5
HAIBU-ReMUD: Reasoning Multimodal Ultrasound Dataset and Model Bridging to General Specific Domains	Jun 9, 2025	DiagnosticQuestion Answering	CodeCode Available	5
GYM at Qur’an QA 2023 Shared Task: Multi-Task Transfer Learning for Quranic Passage Retrieval and Question Answering with Large Language Models	Dec 7, 2023	Multi-Task LearningPassage Retrieval	CodeCode Available	5
GW-MoE: Resolving Uncertainty in MoE Router with Global Workspace Theory	Jun 18, 2024	Code GenerationMathematical Problem-Solving	CodeCode Available	5
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types	Sep 14, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
HaleLab_NITK@SMM4H’22: Adaptive Learning Model for Effective Detection, Extraction and Normalization of Adverse Drug Events from Social Media Data	Oct 1, 2022	Question Answering	CodeCode Available	5
Harnessing the Power of Semi-Structured Knowledge and LLMs with Triplet-Based Prefiltering for Question Answering	Sep 1, 2024	Information RetrievalProduct Recommendation	CodeCode Available	5
Grounding Answers for Visual Questions Asked by Visually Impaired People	Feb 4, 2022	Question AnsweringVisual Question Answering	CodeCode Available	5
Grounded Graph Decoding Improves Compositional Generalization in Question Answering	Nov 5, 2021	Question Answering	CodeCode Available	5
A Memory-Network Based Solution for Multivariate Time-Series Forecasting	Sep 6, 2018	Multivariate Time Series ForecastingQuestion Answering	CodeCode Available	5
Faithful Embeddings for Knowledge Base Queries	Apr 7, 2020	Question Answering	CodeCode Available	5
Complex Sequential Question Answering: Towards Learning to Converse Over Linked Question Answer Pairs with a Knowledge Graph	Jan 31, 2018	Knowledge GraphsQuestion Answering	CodeCode Available	5
Towards Flexible Evaluation for Generative Visual Question Answering	Aug 1, 2024	DecoderGenerative Visual Question Answering	CodeCode Available	5
GUIDEQ: Framework for Guided Questioning for progressive informational collection and classification	Nov 8, 2024	Question Answeringtext-classification	CodeCode Available	5

Show:10 25 50

← PrevPage 80 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified