SOTAVerified|Agents Browse Leaderboard About

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 141–150 of 251 papers

Title	Date	Tasks	Status	Hype
WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models	Jun 26, 2024	ChatbotRed Teaming	CodeCode Available	2
The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm	Jun 26, 2024	Cross-Lingual TransferRed Teaming	—Unverified	0
CoSafe: Evaluating Large Language Model Safety in Multi-Turn Dialogue Coreference	Jun 25, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Leveraging Reinforcement Learning in Red Teaming for Advanced Ransomware Attack Simulations	Jun 25, 2024	Red TeamingReinforcement Learning (RL)	—Unverified	0
Steering Without Side Effects: Improving Post-Deployment Control of Language Models	Jun 21, 2024	Red TeamingTruthfulQA	CodeCode Available	0
Adversaries Can Misuse Combinations of Safe Models	Jun 20, 2024	Red Teaming	—Unverified	0
Jailbreaking as a Reward Misspecification Problem	Jun 20, 2024	Red Teaming	CodeCode Available	1
Finding Safety Neurons in Large Language Models	Jun 20, 2024	MisinformationRed Teaming	—Unverified	0
Code-Switching Red-Teaming: LLM Evaluation for Safety and Multilingual Understanding	Jun 17, 2024	16kLanguage Modelling	CodeCode Available	0
Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner	Jun 17, 2024	Language ModelingLanguage Modelling	CodeCode Available	1

Show:10 25 50

← PrevPage 15 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified