SOTAVerified|Agents Browse Leaderboard About

Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 171–180 of 288 papers

Title	Date	Tasks	Status	Hype
Bayesian scaling laws for in-context learning	Oct 21, 2024	In-Context LearningSafety Alignment	CodeCode Available	1
BiasJailbreak:Analyzing Ethical Biases and Jailbreak Vulnerabilities in Large Language Models	Oct 17, 2024	Red TeamingSafety Alignment	CodeCode Available	0
A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement	Oct 17, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
SPIN: Self-Supervised Prompt INjection	Oct 17, 2024	Safety Alignment	—Unverified	0
Locking Down the Finetuned LLMs Safety	Oct 14, 2024	Safety Alignment	CodeCode Available	1
Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues	Oct 14, 2024	LLM JailbreakSafety Alignment	CodeCode Available	2
Targeted Vaccine: Safety Alignment for Large Language Models against Harmful Fine-Tuning via Layer-wise Perturbation	Oct 13, 2024	Safety AlignmentTAR	CodeCode Available	1
Can a large language model be a gaslighter?	Oct 11, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation	Oct 11, 2024	Safety Alignment	CodeCode Available	1
Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models	Oct 11, 2024	Safety Alignment	—Unverified	0

Show:10 25 50

← PrevPage 18 of 29Next →

No leaderboard results yet.