SOTAVerified|Agents Browse Leaderboard About

Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 271–280 of 288 papers

Title	Date	Tasks	Status	Hype	Score
Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models	Oct 4, 2023	GPUSafety Alignment	—Unverified	0	0
Shape it Up! Restoring LLM Safety during Finetuning	May 22, 2025	Safety Alignment	—Unverified	0	0
Smaller Large Language Models Can Do Moral Self-Correction	Oct 30, 2024	Language ModelingLanguage Modelling	—Unverified	0	0
SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge	May 27, 2025	BenchmarkingMultiple-choice	—Unverified	0	0
SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Models	Jan 1, 2025	Safety Alignment	—Unverified	0	0
SPIN: Self-Supervised Prompt INjection	Oct 17, 2024	Safety Alignment	—Unverified	0	0
STAR-1: Safer Alignment of Reasoning LLMs with 1K Data	Apr 2, 2025	DiversitySafety Alignment	—Unverified	0	0
sudoLLM : On Multi-role Alignment of Language Models	May 20, 2025	Language ModelingLanguage Modelling	—Unverified	0	0
Superficial Safety Alignment Hypothesis	Oct 7, 2024	AttributeBinary Classification	—Unverified	0	0
Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks	Oct 16, 2023	Adversarial AttackFederated Learning	—Unverified	0	0

Show:10 25 50

← PrevPage 28 of 29Next →

No leaderboard results yet.