SOTAVerified|Agents Browse Leaderboard About

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 221–230 of 251 papers

Title	Date	Tasks	Status	Hype
Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation	Oct 10, 2023	Red Teaming	CodeCode Available	1
Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!	Oct 5, 2023	Red TeamingSafety Alignment	CodeCode Available	2
Can Language Models be Instructed to Protect Personal Information?	Oct 3, 2023	Adversarial RobustnessRed Teaming	—Unverified	0
Low-Resource Languages Jailbreak GPT-4	Oct 3, 2023	Red Teaming	—Unverified	0
No Offense Taken: Eliciting Offensiveness from Language Models	Oct 2, 2023	DiversityRed Teaming	CodeCode Available	0
GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts	Sep 19, 2023	Red Teaming	CodeCode Available	2
Red Teaming Generative AI/NLP, the BB84 quantum cryptography protocol and the NIST-approved Quantum-Resistant Cryptographic Algorithms	Sep 17, 2023	Red Teaming	—Unverified	0
Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts	Sep 12, 2023	Red TeamingText-to-Image Generation	CodeCode Available	1
The Promise and Peril of Artificial Intelligence -- Violet Teaming Offers a Balanced Path Forward	Aug 28, 2023	EthicsPhilosophy	—Unverified	0
Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment	Aug 18, 2023	MMLURed Teaming	CodeCode Available	1

Show:10 25 50

← PrevPage 23 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified