SOTAVerified|Agents Browse Leaderboard About

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 141–150 of 251 papers

Title	Date	Tasks	Status	Hype
OpenAI o1 System Card	Dec 21, 2024	ManagementRed Teaming	—Unverified	0
POEX: Understanding and Mitigating Policy Executable Jailbreak Attacks against Embodied AI	Dec 21, 2024	LLM JailbreakRed Teaming	—Unverified	0
AI red-teaming is a sociotechnical challenge: on values, labor, and harms	Dec 12, 2024	Red Teaming	—Unverified	0
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM	Dec 10, 2024	Red Teaming	CodeCode Available	0
Embodied Red Teaming for Auditing Robotic Foundation Models	Nov 27, 2024	Red Teaming	—Unverified	0
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models	Nov 25, 2024	Red TeamingSemantic Similarity	—Unverified	0
LLMStinger: Jailbreaking LLMs using RL fine-tuned LLMs	Nov 13, 2024	Prompt EngineeringRed Teaming	—Unverified	0
Desert Camels and Oil Sheikhs: Arab-Centric Red Teaming of Frontier LLMs	Oct 31, 2024	Red Teaming	—Unverified	0
Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models	Oct 31, 2024	Red TeamingSafety Alignment	CodeCode Available	0
An Auditing Test To Detect Behavioral Shift in Language Models	Oct 25, 2024	BenchmarkingChange Detection	CodeCode Available	0

Show:10 25 50

← PrevPage 15 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified