SOTAVerified|Agents Browse Leaderboard About

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 241–250 of 251 papers

Title	Date	Tasks	Status	Hype
Seeing Seeds Beyond Weeds: Green Teaming Generative AI for Beneficial Uses	May 30, 2023	Red Teaming	—Unverified	0
Personalisation within bounds: A risk taxonomy and policy framework for the alignment of large language models with personalised feedback	Mar 9, 2023	Red Teaming	—Unverified	0
Red teaming ChatGPT via Jailbreaking: Bias, Robustness, Reliability and Toxicity	Jan 30, 2023	EthicsLanguage Modelling	—Unverified	0
Can Large Language Models Change User Preference Adversarially?	Jan 5, 2023	Red Teaming	—Unverified	0
Red-Teaming the Stable Diffusion Safety Filter	Oct 3, 2022	Image GenerationRed Teaming	—Unverified	0
Red Teaming with Mind Reading: White-Box Adversarial Policies Against RL Agents	Sep 5, 2022	Red Teamingreinforcement-learning	CodeCode Available	0
CTI4AI: Threat Intelligence Generation and Sharing after Red Teaming AI Models	Aug 16, 2022	Red Teaming	—Unverified	0
Automating Privilege Escalation with Deep Reinforcement Learning	Oct 4, 2021	BIG-bench Machine LearningDeep Reinforcement Learning	—Unverified	0
A Multi-Disciplinary Review of Knowledge Acquisition Methods: From Human to Autonomous Eliciting Agents	Feb 27, 2018	General ClassificationRed Teaming	—Unverified	0
Computational Red Teaming in a Sudoku Solving Context: Neural Network Based Skill Representation and Acquisition	Feb 27, 2018	Red Teaming	—Unverified	0

Show:10 25 50

← PrevPage 25 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified