SOTAVerified|Agents Browse Leaderboard About

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–210 of 251 papers

Title	Date	Tasks	Status	Hype	Score
Ruby Teaming: Improving Quality Diversity Search with Memory for Automated Red Teaming	Jun 17, 2024	DiversityRed Teaming	—Unverified	0	0
SafeCOMM: What about Safety Alignment in Fine-Tuned Telecom Large Language Models?	May 29, 2025	DiagnosticRed Teaming	—Unverified	0	0
Safety Alignment for Vision Language Models	May 22, 2024	Red TeamingSafety Alignment	—Unverified	0	0
Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods	May 8, 2025	Red TeamingSystematic Literature Review	—Unverified	0	0
SAGE-RT: Synthetic Alignment data Generation for Safety Evaluation and Red Teaming	Aug 14, 2024	Red TeamingSafety Alignment	—Unverified	0	0
A Multi-Disciplinary Review of Knowledge Acquisition Methods: From Human to Autonomous Eliciting Agents	Feb 27, 2018	General ClassificationRed Teaming	—Unverified	0	0
A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI	Apr 23, 2024	Prompt EngineeringRed Teaming	—Unverified	0	0
Seeing Seeds Beyond Weeds: Green Teaming Generative AI for Beneficial Uses	May 30, 2023	Red Teaming	—Unverified	0	0
Shaping Influence and Influencing Shaping: A Computational Red Teaming Trust-based Swarm Intelligence Model	Feb 26, 2018	Red Teaming	—Unverified	0	0
AI red-teaming is a sociotechnical challenge: on values, labor, and harms	Dec 12, 2024	Red Teaming	—Unverified	0	0

Show:10 25 50

← PrevPage 21 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified