SOTAVerified|Agents Browse Leaderboard About

Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 131–140 of 288 papers

Title	Date	Tasks	Status	Hype	Score
BiasJailbreak:Analyzing Ethical Biases and Jailbreak Vulnerabilities in Large Language Models	Oct 17, 2024	Red TeamingSafety Alignment	CodeCode Available	0	5
Don't Command, Cultivate: An Exploratory Study of System-2 Alignment	Nov 26, 2024	Prompt EngineeringSafety Alignment	CodeCode Available	0	5
PANDAS: Improving Many-shot Jailbreaking via Positive Affirmation, Negative Demonstration, and Adaptive Sampling	Feb 4, 2025	Safety Alignment	CodeCode Available	0	5
Separate the Wheat from the Chaff: A Post-Hoc Approach to Safety Re-Alignment for Fine-Tuned Language Models	Dec 15, 2024	Safety Alignment	CodeCode Available	0	5
LoRA-Guard: Parameter-Efficient Guardrail Adaptation for Content Moderation of Large Language Models	Jul 3, 2024	Safety Alignment	—Unverified	0	0
LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B	Oct 31, 2023	GPURed Teaming	—Unverified	0	0
Does Representation Intervention Really Identify Desired Concepts and Elicit Alignment?	May 24, 2025	Code GenerationMath	—Unverified	0	0
Backtracking for Safety	Mar 11, 2025	Safety Alignment	—Unverified	0	0
LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A Vision Paper	Feb 24, 2024	Adversarial AttackSafety Alignment	—Unverified	0	0
LLM-Safety Evaluations Lack Robustness	Mar 4, 2025	Red TeamingResponse Generation	—Unverified	0	0

Show:10 25 50

← PrevPage 14 of 29Next →

No leaderboard results yet.