SOTAVerified|Agents Browse Leaderboard About

Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 241–250 of 288 papers

Title	Date	Tasks	Status	Hype
Alignment-Enhanced Decoding:Defending via Token-Level Adaptive Refining of Probability Distributions	Aug 14, 2024	Safety Alignment	CodeCode Available	0
Exploiting Prefix-Tree in Structured Output Interfaces for Enhancing Jailbreak Attacking	Feb 19, 2025	Prompt EngineeringSafety Alignment	CodeCode Available	0
OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models	May 27, 2025	Safety Alignment	CodeCode Available	0
Separate the Wheat from the Chaff: A Post-Hoc Approach to Safety Re-Alignment for Fine-Tuned Language Models	Dec 15, 2024	Safety Alignment	CodeCode Available	0
Overriding Safety protections of Open-source Models	Sep 28, 2024	Red TeamingSafety Alignment	CodeCode Available	0
One-Shot Safety Alignment for Large Language Models via Optimal Dualization	May 29, 2024	Safety Alignment	CodeCode Available	0
Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge	Apr 8, 2024	General KnowledgeSafety Alignment	CodeCode Available	0
BitBypass: A New Direction in Jailbreaking Aligned Large Language Models with Bitstream Camouflage	Jun 3, 2025	Prompt EngineeringRed Teaming	CodeCode Available	0
AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models	May 29, 2025	Safety Alignment	CodeCode Available	0
Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model	May 10, 2025	Safety Alignment	CodeCode Available	0

Show:10 25 50

← PrevPage 25 of 29Next →

No leaderboard results yet.