SOTAVerified|Agents Browse Leaderboard About

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 191–200 of 251 papers

Title	Date	Tasks	Status	Hype	Score
Red Teaming the Mind of the Machine: A Systematic Evaluation of Prompt Injection and Jailbreak Vulnerabilities in LLMs	May 7, 2025	Red Teaming	—Unverified	0	0
Red-Teaming the Stable Diffusion Safety Filter	Oct 3, 2022	Image GenerationRed Teaming	—Unverified	0	0
Red Teaming Visual Language Models	Jan 23, 2024	FairnessRed Teaming	—Unverified	0	0
Red Teaming with Artificial Intelligence-Driven Cyberattacks: A Scoping Review	Mar 25, 2025	ArticlesRed Teaming	—Unverified	0	0
A Reward-driven Automated Webshell Malicious-code Generator for Red-teaming	May 30, 2025	Code GenerationDiversity	—Unverified	0	0
Reinforced Diffuser for Red Teaming Large Vision-Language Models	Mar 8, 2025	Large Language ModelRed Teaming	—Unverified	0	0
A Red Teaming Roadmap Towards System-Level Safety	May 30, 2025	Large Language ModelRed Teaming	—Unverified	0	0
X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents	Apr 15, 2025	DiversityRed Teaming	—Unverified	0	0
A Red Teaming Framework for Securing AI in Maritime Autonomous Systems	Dec 8, 2023	Red Teaming	—Unverified	0	0
RRTL: Red Teaming Reasoning Large Language Models in Tool Learning	May 21, 2025	Red Teaming	—Unverified	0	0

Show:10 25 50

← PrevPage 20 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified