SOTAVerified|Agents Browse Leaderboard About

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 21–30 of 251 papers

Title	Date	Tasks	Status	Hype	Score
LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet	Aug 27, 2024	Language ModelingLanguage Modelling	CodeCode Available	2	5
WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models	Jun 26, 2024	ChatbotRed Teaming	CodeCode Available	2	5
CoSafe: Evaluating Large Language Model Safety in Multi-Turn Dialogue Coreference	Jun 25, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users	May 24, 2024	DiversityLanguage Modeling	CodeCode Available	1	5
Control Risk for Potential Misuse of Artificial Intelligence in Science	Dec 11, 2023	Red Teaming	CodeCode Available	1	5
Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation	Oct 10, 2023	Red Teaming	CodeCode Available	1	5
Causality Analysis for Evaluating the Security of Large Language Models	Dec 13, 2023	Red Teaming	CodeCode Available	1	5
Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation	Feb 14, 2024	Image GenerationRed Teaming	CodeCode Available	1	5
GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs	Nov 21, 2024	Bayesian OptimizationRed Teaming	CodeCode Available	1	5
Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment	Nov 15, 2023	Red TeamingSafety Alignment	CodeCode Available	1	5

Show:10 25 50

← PrevPage 3 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified