SOTAVerified|Agents Browse Leaderboard About

Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 191–200 of 288 papers

Title	Date	Tasks	Status	Hype
LLM Safety Alignment is Divergence Estimation in Disguise	Feb 2, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning	Jan 31, 2025	BlockingSafety Alignment	—Unverified	0
Towards Safe AI Clinicians: A Comprehensive Study on Large Language Model Jailbreaking in Healthcare	Jan 27, 2025	Language ModelingLanguage Modelling	—Unverified	0
Jailbreak-AudioBench: In-Depth Evaluation and Analysis of Jailbreak Threats for Large Audio Language Models	Jan 23, 2025	Safety Alignment	—Unverified	0
Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks	Jan 18, 2025	Safety Alignment	CodeCode Available	0
PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models	Jan 7, 2025	Image GenerationSafety Alignment	—Unverified	0
SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation	Jan 3, 2025	parameter-efficient fine-tuningSafety Alignment	—Unverified	0
SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Models	Jan 1, 2025	Safety Alignment	—Unverified	0
SATA: A Paradigm for LLM Jailbreak via Simple Assistive Task Linkage	Dec 19, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
Separate the Wheat from the Chaff: A Post-Hoc Approach to Safety Re-Alignment for Fine-Tuned Language Models	Dec 15, 2024	Safety Alignment	CodeCode Available	0

Show:10 25 50

← PrevPage 20 of 29Next →

No leaderboard results yet.