Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4051–4075 of 10817 papers

Title	Date	Tasks	Status	Score
HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language	May 28, 2023	Machine TranslationMultimodal Machine Translation	CodeCode Available	5
How Robust are the Tabular QA Models for Scientific Tables? A Study using Customized Dataset	Mar 30, 2024	Question Answering	CodeCode Available	5
Adaptively Clustering Neighbor Elements for Image-Text Generation	Jan 5, 2023	ClusteringDecoder	CodeCode Available	5
CommVQA: Situating Visual Question Answering in Communicative Contexts	Feb 22, 2024	Question AnsweringVisual Question Answering	CodeCode Available	5
Graph-Based Reasoning over Heterogeneous External Knowledge for Commonsense Question Answering	Sep 9, 2019	Common Sense ReasoningGraph Attention	CodeCode Available	5
Community Question Answering Entity Linking via Leveraging Auxiliary Data	May 24, 2022	Community Question AnsweringEntity Linking	CodeCode Available	5
GraphextQA: A Benchmark for Evaluating Graph-Enhanced Large Language Models	Oct 12, 2023	Answer GenerationHallucination	CodeCode Available	5
Weak-eval-Strong: Evaluating and Eliciting Lateral Thinking of LLMs with Situation Puzzles	Oct 9, 2024	Question Answering	CodeCode Available	5
GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models	Aug 29, 2024	Bias DetectionFairness	CodeCode Available	5
Graph Learning in the Era of LLMs: A Survey from the Perspective of Data, Models, and Tasks	Dec 17, 2024	Domain GeneralizationGraph Learning	CodeCode Available	5
Commonsense Properties from Query Logs and Question Answering Forums	May 27, 2019	Question Answering	CodeCode Available	5
Weakly-Supervised Open-Retrieval Conversational Question Answering	Mar 3, 2021	Conversational Question AnsweringQuestion Answering	CodeCode Available	5
Commonsense Knowledge Mining from Term Definitions	Feb 1, 2021	Knowledge GraphsNatural Language Understanding	CodeCode Available	5
A Dataset for Spatiotemporal-Sensitive POI Question Answering	May 16, 2025	Question AnsweringRAG	CodeCode Available	5
Gotta: Generative Few-shot Question Answering by Prompt-based Cloze Data Augmentation	Jun 7, 2023	Data AugmentationQuestion Answering	CodeCode Available	5
Commonsense for Generative Multi-Hop Question Answering Tasks	Sep 17, 2018	DecoderImplicit Relations	CodeCode Available	5
Common-Knowledge Concept Recognition for SEVA	Mar 26, 2020	Entity Extraction using GANgraph construction	CodeCode Available	5
CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning	Nov 9, 2019	Common Sense ReasoningQuestion Answering	CodeCode Available	5
What Can Neural Networks Reason About?	May 30, 2019	Question AnsweringVisual Question Answering	CodeCode Available	5
What Can Secondary Predictions Tell Us? An Exploration on Question-Answering with SQuAD-v2.0	Jun 29, 2022	Question Answering	CodeCode Available	5
Gold: A Global and Local-aware Denoising Framework for Commonsense Knowledge Graph Noise Detection	Oct 18, 2023	DenoisingKnowledge Graphs	CodeCode Available	5
GloVe: Global Vectors for Word Representation	Oct 1, 2014	Document ClassificationInformation Retrieval	CodeCode Available	5
ASQA: Factoid Questions Meet Long-Form Answers	Apr 12, 2022	FormQuestion Answering	CodeCode Available	5
Combining Word Embeddings and Feature Embeddings for Fine-grained Relation Extraction	May 1, 2015	Machine TranslationNER	CodeCode Available	5
GlossGPT: GPT for Word Sense Disambiguation using Few-shot Chain-of-Thought Prompting	Mar 1, 2025	Question AnsweringWord Sense Disambiguation	CodeCode Available	5

Show:10 25 50

← PrevPage 163 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified