SOTAVerified|Agents Browse Leaderboard About

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 21–30 of 251 papers

Title	Date	Tasks	Status	Hype
Exploring the Vulnerability of the Content Moderation Guardrail in Large Language Models via Intent Manipulation	May 24, 2025	Intent DetectionNatural Language Understanding	—Unverified	0
MTSA: Multi-turn Safety Alignment for LLMs through Multi-round Red-teaming	May 22, 2025	Red TeamingSafety Alignment	CodeCode Available	1
Towards medical AI misalignment: a preliminary study	May 22, 2025	Red Teaming	—Unverified	0
RRTL: Red Teaming Reasoning Large Language Models in Tool Learning	May 21, 2025	Red Teaming	—Unverified	0
EVA: Red-Teaming GUI Agents via Evolving Indirect Prompt Injection	May 20, 2025	Red Teaming	—Unverified	0
Soft Prompts for Evaluation: Measuring Conditional Distance of Capabilities	May 20, 2025	Red Teaming	CodeCode Available	0
"Haet Bhasha aur Diskrimineshun": Phonetic Perturbations in Code-Mixed Hinglish to Red-Team LLMs	May 20, 2025	Image GenerationRed Teaming	—Unverified	0
Hidden Ghost Hand: Unveiling Backdoor Vulnerabilities in MLLM-Powered Mobile GUI Agents	May 20, 2025	Contrastive LearningRed Teaming	—Unverified	0
CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models	May 19, 2025	BenchmarkingRed Teaming	—Unverified	0
LARGO: Latent Adversarial Reflection through Gradient Optimization for Jailbreaking LLMs	May 16, 2025	Red Teaming	—Unverified	0

Show:10 25 50

← PrevPage 3 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified