Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3901–3950 of 10817 papers

Title	Date	Tasks	Status	Score
Consistency Training by Synthetic Question Generation for Conversational Question Answering	Apr 17, 2024	Conversational Question AnsweringData Augmentation	CodeCode Available	5
How Modular Should Neural Module Networks Be for Systematic Generalization?	Jun 15, 2021	Question AnsweringSystematic Generalization	CodeCode Available	5
Consistency of Compositional Generalization across Multiple Levels	Dec 18, 2024	Meta-LearningQuestion Answering	CodeCode Available	5
AdCare-VLM: Leveraging Large Vision Language Model (LVLM) to Monitor Long-Term Medication Adherence and Care	May 1, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
How FaR Are Large Language Models From Agents with Theory-of-Mind?	Oct 4, 2023	In-Context LearningQuestion Answering	CodeCode Available	5
A Study on Large Language Models' Limitations in Multiple-Choice Question Answering	Jan 15, 2024	Multiple-choiceQuestion Answering	CodeCode Available	5
Fine-Tuning and Retrieval Augmented Generation for Question Answering Using Affordable Large Language Models	May 1, 2024	Question AnsweringRetrieval	CodeCode Available	5
ArtQuest: Countering Hidden Language Biases in ArtVQA	Jan 4, 2024	Question AnsweringVisual Question Answering	CodeCode Available	5
HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding	Jan 3, 2025	Question AnsweringVideo Understanding	CodeCode Available	5
Uncovering the Full Potential of Visual Grounding Methods in VQA	Jan 15, 2024	Question AnsweringVisual Grounding	CodeCode Available	5
AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss	May 5, 2021	Question AnsweringVisual Question Answering	CodeCode Available	5
A Russian Jeopardy! Data Set for Question-Answering Systems	Dec 4, 2021	named-entity-recognitionNamed Entity Recognition	CodeCode Available	5
How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild	Feb 18, 2025	ArticlesHallucination	CodeCode Available	5
Understanding the World's Museums through Vision-Language Reasoning	Dec 2, 2024	BenchmarkingQuestion Answering	CodeCode Available	5
ConEntail: An Entailment-based Framework for Universal Zero and Few Shot Classification with Supervised Contrastive Pretraining	Oct 14, 2022	ClassificationNatural Language Inference	CodeCode Available	5
Conditioning LSTM Decoder and Bi-directional Attention Based Question Answering System	May 2, 2019	DecoderQuestion Answering	CodeCode Available	5
High-Order Attention Models for Visual Question Answering	Nov 12, 2017	Question AnsweringVisual Question Answering	CodeCode Available	5
Unification-based Reconstruction of Multi-hop Explanations for Science Questions	Mar 31, 2020	ClusteringInformation Retrieval	CodeCode Available	5
Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes	May 6, 2024	Decision MakingFairness	CodeCode Available	5
A Study of MatchPyramid Models on Ad-hoc Retrieval	Jun 15, 2016	Machine TranslationParaphrase Identification	CodeCode Available	5
Concise Answers to Complex Questions: Summarization of Long-form Answers	May 30, 2023	Extractive SummarizationForm	CodeCode Available	5
Hierarchical Transformer for Task Oriented Dialog Systems	Oct 24, 2020	Natural Language UnderstandingQuestion Answering	CodeCode Available	5
Hierarchical Deep Multi-modal Network for Medical Visual Question Answering	Sep 27, 2020	DescriptiveMedical Visual Question Answering	CodeCode Available	5
Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge	Mar 3, 2024	Data AugmentationQuestion Answering	CodeCode Available	5
Hierarchical Graph Network for Multi-hop Question Answering	Nov 9, 2019	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	5
AMQA: An Adversarial Dataset for Benchmarking Bias of LLMs in Medicine and Healthcare	May 26, 2025	BenchmarkingMedical Diagnosis	CodeCode Available	5
Hierarchical Memory Networks for Answer Selection on Unknown Words	Sep 28, 2016	Answer SelectionQuestion Answering	CodeCode Available	5
HeySQuAD: A Spoken Question Answering Dataset	Apr 26, 2023	Question Answering	CodeCode Available	5
HICD: Hallucination-Inducing via Attention Dispersion for Contrastive Decoding to Mitigate Hallucinations in Large Language Models	Mar 17, 2025	HallucinationQuestion Answering	CodeCode Available	5
Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering	Apr 8, 2019	Question AnsweringVideo Question Answering	CodeCode Available	5
HeteroQA: Learning towards Question-and-Answering through Multiple Information Sources via Heterogeneous Graph Modeling	Dec 27, 2021	ArticlesCommunity Question Answering	CodeCode Available	5
How much do LLMs learn from negative examples?	Mar 18, 2025	Multiple-choiceQuestion Answering	CodeCode Available	5
Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction	Nov 18, 2015	Image Retrieval with Multi-Modal QueryParameter Prediction	CodeCode Available	5
Intent Classification in Question-Answering Using LSTM Architectures	Jan 25, 2020	ClassificationGeneral Classification	CodeCode Available	5
HC3 Plus: A Semantic-Invariant Human ChatGPT Comparison Corpus	Sep 6, 2023	Question Answering	CodeCode Available	5
Harnessing the Power of Semi-Structured Knowledge and LLMs with Triplet-Based Prefiltering for Question Answering	Sep 1, 2024	Information RetrievalProduct Recommendation	CodeCode Available	5
CLEVR_HYP: A Challenge Dataset and Baselines for Visual Question Answering with Hypothetical Actions over Images	Apr 13, 2021	Question AnsweringVisual Question Answering	CodeCode Available	5
Unleashing the Potentials of Likelihood Composition for Multi-modal Language Models	Oct 1, 2024	Question AnsweringVisual Question Answering	CodeCode Available	5
CLEVR\_HYP: A Challenge Dataset and Baselines for Visual Question Answering with Hypothetical Actions over Images	Jun 1, 2021	Question AnsweringVisual Question Answering	CodeCode Available	5
HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language	May 28, 2023	Machine TranslationMultimodal Machine Translation	CodeCode Available	5
HCqa: Hybrid and Complex Question Answering on Textual Corpus and Knowledge Graph	Nov 24, 2018	Knowledge Graphsnamed-entity-recognition	CodeCode Available	5
FiVL: A Framework for Improved Vision-Language Alignment	Dec 19, 2024	Answer GenerationMultimodal Reasoning	CodeCode Available	5
Compressing And Debiasing Vision-Language Pre-Trained Models for Visual Question Answering	Oct 26, 2022	Question AnsweringVisual Question Answering	CodeCode Available	5
Handling Ontology Gaps in Semantic Parsing	Jun 27, 2024	HallucinationQuestion Answering	CodeCode Available	5
HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild	Mar 7, 2024	HallucinationQuestion Answering	CodeCode Available	5
Harnessing the Power of Prompt-based Techniques for Generating School-Level Questions using Large Language Models	Dec 2, 2023	DescriptiveQuestion Answering	CodeCode Available	5
Helmsman of the Masses? Evaluate the Opinion Leadership of Large Language Models in the Werewolf Game	Apr 2, 2024	Question Answering	CodeCode Available	5
Hallucination Mitigation Prompts Long-term Video Understanding	Jun 17, 2024	Answer GenerationHallucination	CodeCode Available	5
Hallucination Benchmark in Medical Visual Question Answering	Jan 11, 2024	HallucinationMedical Visual Question Answering	CodeCode Available	5
HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models	Dec 29, 2024	HallucinationObject	CodeCode Available	5

Show:10 25 50

← PrevPage 79 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified