SOTAVerified|Agents Browse Leaderboard About

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 81–90 of 251 papers

Title	Date	Tasks	Status	Hype
POEX: Understanding and Mitigating Policy Executable Jailbreak Attacks against Embodied AI	Dec 21, 2024	LLM JailbreakRed Teaming	—Unverified	0
OpenAI o1 System Card	Dec 21, 2024	ManagementRed Teaming	—Unverified	0
AI red-teaming is a sociotechnical challenge: on values, labor, and harms	Dec 12, 2024	Red Teaming	—Unverified	0
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM	Dec 10, 2024	Red Teaming	CodeCode Available	0
PrivAgent: Agentic-based Red-teaming for LLM Privacy Leakage	Dec 7, 2024	Red TeamingSafety Alignment	CodeCode Available	1
Embodied Red Teaming for Auditing Robotic Foundation Models	Nov 27, 2024	Red Teaming	—Unverified	0
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models	Nov 25, 2024	Red TeamingSemantic Similarity	—Unverified	0
GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs	Nov 21, 2024	Bayesian OptimizationRed Teaming	CodeCode Available	1
LLMStinger: Jailbreaking LLMs using RL fine-tuned LLMs	Nov 13, 2024	Prompt EngineeringRed Teaming	—Unverified	0
Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models	Oct 31, 2024	Red TeamingSafety Alignment	CodeCode Available	0

Show:10 25 50

← PrevPage 9 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified