SOTAVerified|Agents Browse Leaderboard About Blog

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–110 of 251 papers

Title	Date	Tasks	Status	Hype
h4rm3l: A language for Composable Jailbreak Attack Synthesis	Aug 9, 2024	BenchmarkingProgram Synthesis	—Unverified	0
"Haet Bhasha aur Diskrimineshun": Phonetic Perturbations in Code-Mixed Hinglish to Red-Team LLMs	May 20, 2025	Image GenerationRed Teaming	—Unverified	0
Finding Safety Neurons in Large Language Models	Jun 20, 2024	MisinformationRed Teaming	—Unverified	0
A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI	Apr 23, 2024	Prompt EngineeringRed Teaming	—Unverified	0
Fast Proxies for LLM Robustness Evaluation	Feb 14, 2025	Red Teaming	—Unverified	0
HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback	Mar 13, 2024	Language ModellingLarge Language Model	—Unverified	0
Exploring the Vulnerability of the Content Moderation Guardrail in Large Language Models via Intent Manipulation	May 24, 2025	Intent DetectionNatural Language Understanding	—Unverified	0
Be a Multitude to Itself: A Prompt Evolution Framework for Red Teaming	Feb 22, 2025	DiversityIn-Context Learning	—Unverified	0
A Framework for Evaluating Emerging Cyberattack Capabilities of AI	Mar 14, 2025	Red Teaming	—Unverified	0
Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts	Nov 15, 2023	Adversarial AttackRed Teaming	—Unverified	0

Show:10 25 50

← PrevPage 11 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified