Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8826–8850 of 10817 papers

Title	Date	Tasks	Status
FVQA: Fact-based Visual Question Answering	Jun 17, 2016	Common Sense ReasoningQuestion Answering	—Unverified
Game-theoretic Vocabulary Selection via the Shapley Value and Banzhaf Index	Jun 1, 2021	Document ClassificationNatural Language Inference	—Unverified
GANDALF: a General Character Name Description Dataset for Long Fiction	Nov 1, 2021	Multiple-choiceQuestion Answering	—Unverified
Gated Group Self-Attention for Answer Selection	May 26, 2019	Answer SelectionMachine Translation	—Unverified
Gated Self-Matching Networks for Reading Comprehension and Question Answering	Jul 1, 2017	Question AnsweringReading Comprehension	—Unverified
GatorTron: A Large Clinical Language Model to Unlock Patient Information from Unstructured Electronic Health Records	Feb 2, 2022	Clinical Concept ExtractionLanguage Modeling	—Unverified
Gaussian Attention Model and Its Application to Knowledge Base Embedding and Question Answering	Nov 7, 2016	Question Answering	—Unverified
GC-KBVQA: A New Four-Stage Framework for Enhancing Knowledge Based Visual Question Answering Performance	May 25, 2025	Caption GenerationQuestion Answering	—Unverified
GeAR: Graph-enhanced Agent for Retrieval-augmented Generation	Dec 24, 2024	Multi-hop Question AnsweringQuestion Answering	—Unverified
GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis	Nov 25, 2024	Medical Visual Question AnsweringMultiple-choice	—Unverified
GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning	Jun 22, 2025	Answer GenerationDecision Making	—Unverified
Gemini Pro Defeated by GPT-4V: Evidence from Education	Dec 27, 2023	image-classificationImage Classification	—Unverified
GeMQuAD : Generating Multilingual Question Answering Datasets from Large Language Models using Few Shot Learning	Apr 14, 2024	Extractive Question-AnsweringFew-Shot Learning	—Unverified
GEM-RAG: Graphical Eigen Memories For Retrieval Augmented Generation	Sep 23, 2024	Question AnsweringRAG	—Unverified
GenDec: A robust generative Question-decomposition method for Multi-hop reasoning	Feb 17, 2024	Multi-hop Question AnsweringQuestion Answering	—Unverified
Gender and Racial Bias in Visual Question Answering Datasets	May 17, 2022	Question AnsweringVisual Question Answering	—Unverified
Gender and Racial Stereotype Detection in Legal Opinion Word Embeddings	Mar 24, 2022	Question AnsweringWord Embeddings	—Unverified
General Embedding vs. Task-Specific Embedding: A Comparative Approach to Enhancing NLP Performance	Jan 30, 2025	Multi-Task Learning	—Unverified
Generalizable Neuro-symbolic Systems for Commonsense Question Answering	Jan 17, 2022	Knowledge GraphsQuestion Answering	—Unverified
Generalization Differences between End-to-End and Neuro-Symbolic Vision-Language Reasoning Systems	Oct 26, 2022	Question AnsweringVisual Question Answering	—Unverified
Generalization Methods for In-Domain and Cross-Domain Opinion Holder Extraction	Apr 1, 2012	Clusteringdomain classification	—Unverified
Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data	Jul 20, 2024	Language ModellingMachine Translation	—Unverified
Generalized but not Robust? Comparing the Effects of Data Modification Methods on Out-of-Domain Generalization and Adversarial Robustness	Mar 15, 2022	Adversarial RobustnessData Augmentation	—Unverified
Generalized Hadamard-Product Fusion Operators for Visual Question Answering	Mar 26, 2018	Neural Architecture SearchQuestion Answering	—Unverified
Generalizing Question Answering System with Pre-trained Language Model Fine-tuning	Nov 1, 2019	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 354 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified