SOTAVerified|Agents Browse Leaderboard About

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 161–170 of 251 papers

Title	Date	Tasks	Status	Hype	Score
Breaking the Global North Stereotype: A Global South-centric Benchmark Dataset for Auditing and Mitigating Biases in Facial Recognition Systems	Jul 22, 2024	Contrastive LearningGender Prediction	—Unverified	0	0
Be a Multitude to Itself: A Prompt Evolution Framework for Red Teaming	Feb 22, 2025	DiversityIn-Context Learning	—Unverified	0	0
Purple-teaming LLMs with Adversarial Defender Training	Jul 1, 2024	Generative Adversarial NetworkRed Teaming	—Unverified	0	0
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models	Jan 3, 2025	Red Teaming	—Unverified	0	0
Quality-Diversity Red-Teaming: Automated Generation of High-Quality and Diverse Attackers for Large Language Models	Jun 8, 2025	DiversityRed Teaming	—Unverified	0	0
AutoRedTeamer: Autonomous Red Teaming with Lifelong Attack Integration	Mar 20, 2025	Red Teaming	—Unverified	0	0
When Testing AI Tests Us: Safeguarding Mental Health on the Digital Frontlines	Apr 29, 2025	Red Teaming	—Unverified	0	0
RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models	Apr 25, 2025	RAGRed Teaming	—Unverified	0	0
Automating Privilege Escalation with Deep Reinforcement Learning	Oct 4, 2021	BIG-bench Machine LearningDeep Reinforcement Learning	—Unverified	0	0
Recent advancements in LLM Red-Teaming: Techniques, Defenses, and Ethical Considerations	Oct 9, 2024	Language ModelingLanguage Modelling	—Unverified	0	0

Show:10 25 50

← PrevPage 17 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified