Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 288 papers

Title	Date	Tasks	Status	Hype	Score
Lifelong Safety Alignment for Language Models	May 26, 2025	Safety Alignment	CodeCode Available	1	5
Locking Down the Finetuned LLMs Safety	Oct 14, 2024	Safety Alignment	CodeCode Available	1	5
Bayesian scaling laws for in-context learning	Oct 21, 2024	In-Context LearningSafety Alignment	CodeCode Available	1	5
Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation	Jan 30, 2025	Safety Alignment	CodeCode Available	1	5
Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment	Nov 27, 2024	Safety AlignmentVisual Reasoning	CodeCode Available	1	5
Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable	Mar 1, 2025	Language ModelingLanguage Modelling	CodeCode Available	1	5
SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types	Oct 29, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
Targeted Vaccine: Safety Alignment for Large Language Models against Harmful Fine-Tuning via Layer-wise Perturbation	Oct 13, 2024	Safety AlignmentTAR	CodeCode Available	1	5
MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance	Jan 5, 2024	Safety Alignment	CodeCode Available	1	5
Can Editing LLMs Inject Harm?	Jul 29, 2024	FairnessGeneral Knowledge	CodeCode Available	1	5
Safe Pruning LoRA: Robust Distance-Guided Pruning for Safety Alignment in Adaptation of LLMs	Jun 21, 2025	Safety Alignment	CodeCode Available	0	5
DiaBlo: Diagonal Blocks Are Sufficient For Finetuning	Jun 3, 2025	Arithmetic ReasoningCode Generation	CodeCode Available	0	5
Safety Alignment in NLP Tasks: Weakly Aligned Summarization as an In-Context Attack	Dec 12, 2023	Question AnsweringSafety Alignment	CodeCode Available	0	5
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models	Oct 7, 2024	Language ModelingLanguage Modelling	CodeCode Available	0	5
SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance	Jun 26, 2024	Safety Alignment	CodeCode Available	0	5
Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models	Oct 31, 2024	Red TeamingSafety Alignment	CodeCode Available	0	5
Code-Switching Red-Teaming: LLM Evaluation for Safety and Multilingual Understanding	Jun 17, 2024	16kLanguage Modelling	CodeCode Available	0	5
A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement	Oct 17, 2024	Language ModelingLanguage Modelling	CodeCode Available	0	5
PANDAS: Improving Many-shot Jailbreaking via Positive Affirmation, Negative Demonstration, and Adaptive Sampling	Feb 4, 2025	Safety Alignment	CodeCode Available	0	5
One-Shot Safety Alignment for Large Language Models via Optimal Dualization	May 29, 2024	Safety Alignment	CodeCode Available	0	5
AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models	May 29, 2025	Safety Alignment	CodeCode Available	0	5
One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs	May 23, 2025	AllSafety Alignment	CodeCode Available	0	5
Overriding Safety protections of Open-source Models	Sep 28, 2024	Red TeamingSafety Alignment	CodeCode Available	0	5
Exploiting Prefix-Tree in Structured Output Interfaces for Enhancing Jailbreak Attacking	Feb 19, 2025	Prompt EngineeringSafety Alignment	CodeCode Available	0	5
Can a large language model be a gaslighter?	Oct 11, 2024	Language ModelingLanguage Modelling	CodeCode Available	0	5

Show:10 25 50

← PrevPage 4 of 12Next →

No leaderboard results yet.