SOTAVerified|Agents Browse Leaderboard About Blog

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 91–100 of 251 papers

Title	Date	Tasks	Status	Hype
A Frontier AI Risk Management Framework: Bridging the Gap Between Current AI Practices and Established Risk Management	Feb 10, 2025	ManagementRed Teaming	—Unverified	0
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models	Nov 25, 2024	Red TeamingSemantic Similarity	—Unverified	0
IterAlign: Iterative Constitutional Alignment of Large Language Models	Mar 27, 2024	Red Teaming	—Unverified	0
Games for AI Control: Models of Safety Evaluations of AI Deployment Protocols	Sep 12, 2024	Decision MakingRed Teaming	—Unverified	0
LARGO: Latent Adversarial Reflection through Gradient Optimization for Jailbreaking LLMs	May 16, 2025	Red Teaming	—Unverified	0
FLIRT: Feedback Loop In-context Red Teaming	Aug 8, 2023	In-Context LearningRed Teaming	—Unverified	0
GhostPrompt: Jailbreaking Text-to-image Generative Models based on Dynamic Optimization	May 25, 2025	Large Language ModelRed Teaming	—Unverified	0
A Multi-Disciplinary Review of Knowledge Acquisition Methods: From Human to Autonomous Eliciting Agents	Feb 27, 2018	General ClassificationRed Teaming	—Unverified	0
Hidden Ghost Hand: Unveiling Backdoor Vulnerabilities in MLLM-Powered Mobile GUI Agents	May 20, 2025	Contrastive LearningRed Teaming	—Unverified	0
Finding Safety Neurons in Large Language Models	Jun 20, 2024	MisinformationRed Teaming	—Unverified	0

Show:10 25 50

← PrevPage 10 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified