SOTAVerified|Agents Browse Leaderboard About

Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–260 of 288 papers

Title	Date	Tasks	Status	Hype
CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion	Mar 12, 2024	Code CompletionSafety Alignment	CodeCode Available	2
Enhancing Jailbreak Attacks with Diversity Guidance	Mar 1, 2024	DiversityLanguage Modelling	—Unverified	0
Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates	Feb 28, 2024	GSM8KSafety Alignment	CodeCode Available	1
DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers	Feb 25, 2024	In-Context LearningSafety Alignment	CodeCode Available	2
LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A Vision Paper	Feb 24, 2024	Adversarial AttackSafety Alignment	—Unverified	0
Break the Breakout: Reinventing LM Defense Against Jailbreak Attacks with Self-Refinement	Feb 23, 2024	Safety Alignment	—Unverified	0
Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment	Feb 22, 2024	Backdoor AttackLanguage Modelling	CodeCode Available	1
Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning	Feb 21, 2024	Instruction FollowingLanguage Modeling	CodeCode Available	2
Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!	Feb 19, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs	Feb 19, 2024	Safety Alignment	CodeCode Available	2

Show:10 25 50

← PrevPage 26 of 29Next →

No leaderboard results yet.