SOTAVerified|Agents Browse Leaderboard About

Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 21–30 of 288 papers

Title	Date	Tasks	Status	Hype
Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets	Jun 5, 2025	Safety Alignment	—Unverified	0
Vulnerability-Aware Alignment: Mitigating Uneven Forgetting in Harmful Fine-Tuning	Jun 4, 2025	Safety Alignment	—Unverified	0
DiaBlo: Diagonal Blocks Are Sufficient For Finetuning	Jun 3, 2025	Arithmetic ReasoningCode Generation	CodeCode Available	0
BitBypass: A New Direction in Jailbreaking Aligned Large Language Models with Bitstream Camouflage	Jun 3, 2025	Prompt EngineeringRed Teaming	CodeCode Available	0
Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models	Jun 2, 2025	Safety Alignment	—Unverified	0
TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis	May 30, 2025	DiversityLanguage Modeling	CodeCode Available	0
Bootstrapping LLM Robustness for VLM Safety via Reducing the Pretraining Modality Gap	May 30, 2025	Safety Alignment	—Unverified	0
SafeCOMM: What about Safety Alignment in Fine-Tuned Telecom Large Language Models?	May 29, 2025	DiagnosticRed Teaming	—Unverified	0
EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions	May 29, 2025	Safety Alignment	—Unverified	0
AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models	May 29, 2025	Safety Alignment	CodeCode Available	0

Show:10 25 50

← PrevPage 3 of 29Next →

No leaderboard results yet.