SOTAVerified|Agents Browse Leaderboard About

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 211–220 of 251 papers

Title	Date	Tasks	Status	Hype
AttackGNN: Red-Teaming GNNs in Hardware Security Using Reinforcement Learning	Feb 21, 2024	Graph Neural NetworkRed Teaming	—Unverified	0
Investigating Bias Representations in Llama 2 Chat via Activation Steering	Feb 1, 2024	Decision MakingRed Teaming	—Unverified	0
Gradient-Based Language Model Red Teaming	Jan 30, 2024	Language ModelingLanguage Modelling	—Unverified	0
Red-Teaming for Generative AI: Silver Bullet or Security Theater?	Jan 29, 2024	Red Teaming	—Unverified	0
Towards Red Teaming in Multimodal and Multilingual Translation	Jan 29, 2024	Machine TranslationRed Teaming	—Unverified	0
Red Teaming Visual Language Models	Jan 23, 2024	FairnessRed Teaming	—Unverified	0
Digital cloning of online social networks for language-sensitive agent-based modeling of misinformation spread	Jan 23, 2024	MisinformationRed Teaming	—Unverified	0
Sowing the Wind, Reaping the Whirlwind: The Impact of Editing Language Models	Jan 19, 2024	Model EditingRed Teaming	CodeCode Available	0
Red Teaming for Large Language Models At Scale: Tackling Hallucinations on Mathematics Tasks	Dec 30, 2023	Red Teaming	CodeCode Available	0
A Red Teaming Framework for Securing AI in Maritime Autonomous Systems	Dec 8, 2023	Red Teaming	—Unverified	0

Show:10 25 50

← PrevPage 22 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified