SOTAVerified|Agents Browse Leaderboard About

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 141–150 of 251 papers

Title	Date	Tasks	Status	Hype	Score
MART: Improving LLM Safety with Multi-round Automatic Red-Teaming	Nov 13, 2023	Instruction FollowingRed Teaming	—Unverified	0	0
Computational Red Teaming in a Sudoku Solving Context: Neural Network Based Skill Representation and Acquisition	Feb 27, 2018	Red Teaming	—Unverified	0	0
MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models	Mar 19, 2025	Adversarial RobustnessAutonomous Driving	—Unverified	0	0
Model Card and Evaluations for Claude Models	Jul 11, 2023	Arithmetic ReasoningBug fixing	—Unverified	0	0
CELL your Model: Contrastive Explanations for Large Language Models	Jun 17, 2024	Red TeamingText Generation	—Unverified	0	0
Multi-lingual Multi-turn Automated Red Teaming for LLMs	Apr 4, 2025	Red Teaming	—Unverified	0	0
The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm	Jun 26, 2024	Cross-Lingual TransferRed Teaming	—Unverified	0	0
Can Large Language Models Change User Preference Adversarially?	Jan 5, 2023	Red Teaming	—Unverified	0	0
Can Large Language Models Automatically Jailbreak GPT-4V?	Jul 23, 2024	Face RecognitionIn-Context Learning	—Unverified	0	0
Offensive Security for AI Systems: Concepts, Practices, and Applications	May 9, 2025	Red Teaming	—Unverified	0	0

Show:10 25 50

← PrevPage 15 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified