SOTAVerified|Agents Browse Leaderboard About

Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 221–230 of 288 papers

Title	Date	Tasks	Status	Hype	Score
Model Card and Evaluations for Claude Models	Jul 11, 2023	Arithmetic ReasoningBug fixing	—Unverified	0	0
Model-Editing-Based Jailbreak against Safety-aligned Large Language Models	Dec 11, 2024	Model EditingSafety Alignment	—Unverified	0	0
Model Merging and Safety Alignment: One Bad Model Spoils the Bunch	Jun 20, 2024	modelSafety Alignment	—Unverified	0	0
More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment	Apr 3, 2025	ARCHellaSwag	—Unverified	0	0
Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture	Jul 10, 2024	Safety Alignment	—Unverified	0	0
Na'vi or Knave: Jailbreaking Language Models via Metaphorical Avatars	Dec 10, 2024	Safety Alignment	—Unverified	0	0
NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models	Apr 29, 2025	Safety Alignment	—Unverified	0	0
No Free Lunch for Defending Against Prefilling Attack by In-Context Learning	Dec 13, 2024	In-Context LearningSafety Alignment	—Unverified	0	0
Noise Injection Systemically Degrades Large Language Model Safety Guardrails	May 16, 2025	Language ModelingLanguage Modelling	—Unverified	0	0
No Two Devils Alike: Unveiling Distinct Mechanisms of Fine-tuning Attacks	May 25, 2024	Safety Alignment	—Unverified	0	0

Show:10 25 50

← PrevPage 23 of 29Next →

No leaderboard results yet.