SOTAVerified|Agents Browse Leaderboard About

Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 131–140 of 288 papers

Title	Date	Tasks	Status	Hype
PANDAS: Improving Many-shot Jailbreaking via Positive Affirmation, Negative Demonstration, and Adaptive Sampling	Feb 4, 2025	Safety Alignment	CodeCode Available	0
Internal Activation as the Polar Star for Steering Unsafe LLM Behavior	Feb 3, 2025	Safety Alignment	—Unverified	0
The dark deep side of DeepSeek: Fine-tuning attacks against the safety alignment of CoT-enabled models	Feb 3, 2025	Safety Alignment	—Unverified	0
LLM Safety Alignment is Divergence Estimation in Disguise	Feb 2, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning	Jan 31, 2025	BlockingSafety Alignment	—Unverified	0
Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation	Jan 30, 2025	Safety Alignment	CodeCode Available	1
Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation	Jan 29, 2025	Red TeamingSafety Alignment	CodeCode Available	2
xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking	Jan 28, 2025	Reinforcement Learning (RL)Safety Alignment	CodeCode Available	1
Towards Safe AI Clinicians: A Comprehensive Study on Large Language Model Jailbreaking in Healthcare	Jan 27, 2025	Language ModelingLanguage Modelling	—Unverified	0
Jailbreak-AudioBench: In-Depth Evaluation and Analysis of Jailbreak Threats for Large Audio Language Models	Jan 23, 2025	Safety Alignment	—Unverified	0

Show:10 25 50

← PrevPage 14 of 29Next →

No leaderboard results yet.