SOTAVerified|Agents Browse Leaderboard About

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–60 of 251 papers

Title	Date	Tasks	Status	Hype	Score
"Not Aligned" is Not "Malicious": Being Careful about Hallucinations of Large Language Models' Jailbreak	Jun 17, 2024	Red Teaming	CodeCode Available	1	5
Jailbreaking as a Reward Misspecification Problem	Jun 20, 2024	Red Teaming	CodeCode Available	1	5
OET: Optimization-based prompt injection Evaluation Toolkit	May 1, 2025	Adversarial RobustnessNatural Language Understanding	CodeCode Available	1	5
Causality Analysis for Evaluating the Security of Large Language Models	Dec 13, 2023	Red Teaming	CodeCode Available	1	5
Attack Prompt Generation for Red Teaming and Defending Large Language Models	Oct 19, 2023	In-Context LearningRed Teaming	CodeCode Available	1	5
AI Control: Improving Safety Despite Intentional Subversion	Dec 12, 2023	Red Teaming	CodeCode Available	1	5
ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users	May 24, 2024	DiversityLanguage Modeling	CodeCode Available	1	5
Control Risk for Potential Misuse of Artificial Intelligence in Science	Dec 11, 2023	Red Teaming	CodeCode Available	1	5
DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints	May 29, 2024	DiversityLanguage Modeling	CodeCode Available	1	5
CoSafe: Evaluating Large Language Model Safety in Multi-Turn Dialogue Coreference	Jun 25, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5

Show:10 25 50

← PrevPage 6 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified