Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7551–7575 of 10817 papers

Title	Date	Tasks	Status
Comprehensive Event Representations using Event Knowledge Graphs and Natural Language Processing	Mar 8, 2023	Event ExtractionKnowledge Graph Completion	—Unverified
Greenback Bears and Fiscal Hawks: Finance is a Jungle and Text Embeddings Must Adapt	Nov 11, 2024	Question Answering	—Unverified
FairSteer: Inference Time Debiasing for LLMs with Dynamic Activation Steering	Apr 20, 2025	counterfactualFairness	—Unverified
Probabilistic Databases of Universal Schema	Jun 1, 2012	Collaborative FilteringQuestion Answering	—Unverified
Comprehensive Evaluation for a Large Scale Knowledge Graph Question Answering Service	Jan 28, 2025	Graph Question AnsweringNatural Language Queries	—Unverified
Probabilistic Inference for Cold Start Knowledge Base Population with Prior World Knowledge	Apr 1, 2017	Common Sense ReasoningEntity Linking	—Unverified
Probabilistic Neural Programs	Dec 2, 2016	Program inductionQuestion Answering	—Unverified
Probabilistic Neural-symbolic Models for Interpretable Visual Question Answering	Feb 21, 2019	counterfactualQuestion Answering	—Unverified
A Strong Lexical Matching Method for the Machine Comprehension Test	Sep 1, 2015	Common Sense ReasoningCoreference Resolution	—Unverified
GreaseLM: Graph REASoning Enhanced Language Models	Sep 29, 2021	Knowledge GraphsMedical Question Answering	—Unverified
Comprehensive Audio Query Handling System with Integrated Expert Models and Contextual Understanding	Dec 5, 2024	Audio GenerationAutomatic Speech Recognition	—Unverified
Probing Difficulty and Discrimination of Natural Language Questions With Item Response Theory	Nov 16, 2021	Active LearningQuestion Answering	—Unverified
GRASS: Unified Generation Model for Speech-to-Semantic Tasks	Sep 6, 2023	named-entity-recognitionNamed Entity Recognition	—Unverified
GraspCoT: Integrating Physical Property Reasoning for 6-DoF Grasping under Flexible Language Instructions	Mar 20, 2025	Question Answering	—Unverified
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training	Jun 25, 2021	Image-text RetrievalQuestion Answering	—Unverified
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-and-Language Pre-training	May 21, 2021	Question AnsweringRelation	—Unverified
How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering	Jan 11, 2024	In-Context LearningKnowledge Base Question Answering	—Unverified
Faithful Temporal Question Answering over Heterogeneous Sources	Feb 23, 2024	Question Answering	—Unverified
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering	Nov 14, 2024	Medical Question AnsweringMisinformation	—Unverified
Probing the Role of Positional Information in Vision-Language Models	May 17, 2023	Contrastive LearningImage-text matching	—Unverified
Probing Visual Language Priors in VLMs	Dec 31, 2024	Question AnsweringVisual Question Answering	—Unverified
Problematic Cases in the Annotation of Negation in Spanish	Dec 1, 2016	NegationNegation Detection	—Unverified
A strong baseline for question relevancy ranking	Aug 27, 2018	Community Question AnsweringFeature Engineering	—Unverified
ProblemSolver at SemEval-2019 Task 10: Sequence-to-Sequence Learning and Expression Trees	Jun 1, 2019	MathQuestion Answering	—Unverified
A Method to Generate a Machine-Labeled Data for Biomedical Named Entity Recognition with Various Sub-Domains	Nov 1, 2017	BIG-bench Machine Learningnamed-entity-recognition	—Unverified

Show:10 25 50

← PrevPage 303 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified