Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 288 papers

Title	Date	Tasks	Status	Hype
Lifelong Safety Alignment for Language Models	May 26, 2025	Safety Alignment	CodeCode Available	1
MPO: Multilingual Safety Alignment via Reward Gap Optimization	May 22, 2025	Safety Alignment	CodeCode Available	1
MTSA: Multi-turn Safety Alignment for LLMs through Multi-round Red-teaming	May 22, 2025	Red TeamingSafety Alignment	CodeCode Available	1
Safety Subspaces are Not Distinct: A Fine-Tuning Case Study	May 20, 2025	Safety Alignment	CodeCode Available	1
Linear Control of Test Awareness Reveals Differential Compliance in Reasoning Models	May 20, 2025	Safety Alignment	CodeCode Available	1
AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender	Apr 13, 2025	Safety Alignment	CodeCode Available	1
VPO: Aligning Text-to-Video Generation Models with Prompt Optimization	Mar 26, 2025	In-Context LearningSafety Alignment	CodeCode Available	1
sudo rm -rf agentic_security	Mar 26, 2025	Adversarial AttackAI and Safety	CodeCode Available	1
LookAhead Tuning: Safer Language Models via Partial Answer Previews	Mar 24, 2025	PositionSafety Alignment	CodeCode Available	1
SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging	Mar 21, 2025	GSM8KSafety Alignment	CodeCode Available	1
Improving LLM Safety Alignment with Dual-Objective Optimization	Mar 5, 2025	Safety Alignment	CodeCode Available	1
Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable	Mar 1, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks	Feb 28, 2025	Safety Alignment	CodeCode Available	1
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models	Feb 16, 2025	Safety Alignment	CodeCode Available	1
X-Boundary: Establishing Exact Safety Boundary to Shield LLMs from Multi-Turn Jailbreaks without Compromising Usability	Feb 14, 2025	Safety Alignment	CodeCode Available	1
QueryAttack: Jailbreaking Aligned Large Language Models Using Structured Non-natural Query Language	Feb 13, 2025	Safety Alignment	CodeCode Available	1
Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions	Feb 6, 2025	Safety Alignment	CodeCode Available	1
Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation	Jan 30, 2025	Safety Alignment	CodeCode Available	1
xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking	Jan 28, 2025	Reinforcement Learning (RL)Safety Alignment	CodeCode Available	1
Autonomous Microscopy Experiments through Large Language Model Agents	Dec 18, 2024	BenchmarkingExperimental Design	CodeCode Available	1
PrivAgent: Agentic-based Red-teaming for LLM Privacy Leakage	Dec 7, 2024	Red TeamingSafety Alignment	CodeCode Available	1
Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment	Nov 27, 2024	Safety AlignmentVisual Reasoning	CodeCode Available	1
SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types	Oct 29, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Bayesian scaling laws for in-context learning	Oct 21, 2024	In-Context LearningSafety Alignment	CodeCode Available	1
Locking Down the Finetuned LLMs Safety	Oct 14, 2024	Safety Alignment	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 12Next →

No leaderboard results yet.