SOTAVerified|Agents Browse Leaderboard About

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 161–170 of 251 papers

Title	Date	Tasks	Status	Hype
Overriding Safety protections of Open-source Models	Sep 28, 2024	Red TeamingSafety Alignment	CodeCode Available	0
Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI	Sep 23, 2024	Red Teaming	—Unverified	0
Jailbreaking Large Language Models with Symbolic Mathematics	Sep 17, 2024	Red Teaming	—Unverified	0
What Is Wrong with My Model? Identifying Systematic Problems with Semantic Data Slicing	Sep 14, 2024	Red Teaming	CodeCode Available	0
Games for AI Control: Models of Safety Evaluations of AI Deployment Protocols	Sep 12, 2024	Decision MakingRed Teaming	—Unverified	0
Exploring Straightforward Conversational Red-Teaming	Sep 7, 2024	Red Teaming	—Unverified	0
Conversational Complexity for Assessing Risk in Large Language Models	Sep 2, 2024	Red Teaming	—Unverified	0
Testing and Evaluation of Large Language Models: Correctness, Non-Toxicity, and Fairness	Aug 31, 2024	FairnessLanguage Modeling	—Unverified	0
Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models	Aug 27, 2024	Red TeamingTransfer Learning	CodeCode Available	0
Atoxia: Red-teaming Large Language Models with Target Toxic Answers	Aug 27, 2024	Prompt EngineeringRed Teaming	—Unverified	0

Show:10 25 50

← PrevPage 17 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified