SOTAVerified|Agents Browse Leaderboard About

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 91–100 of 251 papers

Title	Date	Tasks	Status	Hype
Desert Camels and Oil Sheikhs: Arab-Centric Red Teaming of Frontier LLMs	Oct 31, 2024	Red Teaming	—Unverified	0
An Auditing Test To Detect Behavioral Shift in Language Models	Oct 25, 2024	BenchmarkingChange Detection	CodeCode Available	0
AdvAgent: Controllable Blackbox Red-teaming on Web Agents	Oct 22, 2024	Decision MakingRed Teaming	—Unverified	0
LLM-Assisted Red Teaming of Diffusion Models through "Failures Are Fated, But Can Be Faded"	Oct 22, 2024	Deep Reinforcement LearningRed Teaming	—Unverified	0
Insights and Current Gaps in Open-Source LLM Vulnerability Scanners: A Comparative Analysis	Oct 21, 2024	Red Teaming	—Unverified	0
SMILES-Prompting: A Novel Approach to LLM Jailbreak Attacks in Chemical Synthesis	Oct 21, 2024	LLM JailbreakRed Teaming	CodeCode Available	0
BiasJailbreak:Analyzing Ethical Biases and Jailbreak Vulnerabilities in Large Language Models	Oct 17, 2024	Red TeamingSafety Alignment	CodeCode Available	0
A Formal Framework for Assessing and Mitigating Emergent Security Risks in Generative AI Models: Bridging Theory and Dynamic Risk Mitigation	Oct 15, 2024	Anomaly DetectionRed Teaming	—Unverified	0
VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment	Oct 12, 2024	DiversityHallucination	—Unverified	0
Refusal-Trained LLMs Are Easily Jailbroken As Browser Agents	Oct 11, 2024	ChatbotRed Teaming	CodeCode Available	1

Show:10 25 50

← PrevPage 10 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified