SOTAVerified|Agents Browse Leaderboard About Blog

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 81–90 of 251 papers

Title	Date	Tasks	Status	Hype
Red Teaming AI Policy: A Taxonomy of Avoision and the EU AI Act	Jun 2, 2025	Red Teaming	—Unverified	0
A Reward-driven Automated Webshell Malicious-code Generator for Red-teaming	May 30, 2025	Code GenerationDiversity	—Unverified	0
A Red Teaming Roadmap Towards System-Level Safety	May 30, 2025	Large Language ModelRed Teaming	—Unverified	0
Towards Secure MLOps: Surveying Attacks, Mitigation Strategies, and Research Challenges	May 30, 2025	Red Teaming	—Unverified	0
TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis	May 30, 2025	DiversityLanguage Modeling	CodeCode Available	0
CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring	May 29, 2025	Red Teaming	—Unverified	0
SafeCOMM: What about Safety Alignment in Fine-Tuned Telecom Large Language Models?	May 29, 2025	DiagnosticRed Teaming	—Unverified	0
Red-Teaming Text-to-Image Systems by Rule-based Preference Modeling	May 27, 2025	Red Teaming	—Unverified	0
Capability-Based Scaling Laws for LLM Red-Teaming	May 26, 2025	MMLUPrompt Engineering	CodeCode Available	0
GhostPrompt: Jailbreaking Text-to-image Generative Models based on Dynamic Optimization	May 25, 2025	Large Language ModelRed Teaming	—Unverified	0

Show:10 25 50

← PrevPage 9 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified