SOTAVerified|Agents Browse Leaderboard About Blog

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 81–90 of 251 papers

Title	Date	Tasks	Status	Hype
A Reward-driven Automated Webshell Malicious-code Generator for Red-teaming	May 30, 2025	Code GenerationDiversity	—Unverified	0
Can Large Language Models Change User Preference Adversarially?	Jan 5, 2023	Red Teaming	—Unverified	0
A Red Teaming Roadmap Towards System-Level Safety	May 30, 2025	Large Language ModelRed Teaming	—Unverified	0
GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models	Jun 11, 2025	Large Language ModelRed Teaming	—Unverified	0
Can Large Language Models Automatically Jailbreak GPT-4V?	Jul 23, 2024	Face RecognitionIn-Context Learning	—Unverified	0
Can Language Models be Instructed to Protect Personal Information?	Oct 3, 2023	Adversarial RobustnessRed Teaming	—Unverified	0
A Red Teaming Framework for Securing AI in Maritime Autonomous Systems	Dec 8, 2023	Red Teaming	—Unverified	0
Building Safe GenAI Applications: An End-to-End Overview of Red Teaming for Large Language Models	Mar 3, 2025	Red TeamingSurvey	—Unverified	0
Breaking the Global North Stereotype: A Global South-centric Benchmark Dataset for Auditing and Mitigating Biases in Facial Recognition Systems	Jul 22, 2024	Contrastive LearningGender Prediction	—Unverified	0
A Frontier AI Risk Management Framework: Bridging the Gap Between Current AI Practices and Established Risk Management	Feb 10, 2025	ManagementRed Teaming	—Unverified	0

Show:10 25 50

← PrevPage 9 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified