Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 288 papers

Title	Date	Tasks	Status	Hype
All Languages Matter: On the Multilingual Safety of Large Language Models	Oct 2, 2023	AllSafety Alignment	CodeCode Available	1
MPO: Multilingual Safety Alignment via Reward Gap Optimization	May 22, 2025	Safety Alignment	CodeCode Available	1
SafeSora: Towards Safety Alignment of Text2Video Generation via a Human Preference Dataset	Jun 20, 2024	Safety AlignmentText-to-Video Generation	CodeCode Available	1
QueryAttack: Jailbreaking Aligned Large Language Models Using Structured Non-natural Query Language	Feb 13, 2025	Safety Alignment	CodeCode Available	1
LookAhead Tuning: Safer Language Models via Partial Answer Previews	Mar 24, 2025	PositionSafety Alignment	CodeCode Available	1
Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment	Feb 22, 2024	Backdoor AttackLanguage Modelling	CodeCode Available	1
Autonomous Microscopy Experiments through Large Language Model Agents	Dec 18, 2024	BenchmarkingExperimental Design	CodeCode Available	1
FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts	Nov 9, 2023	Optical Character Recognition (OCR)Safety Alignment	CodeCode Available	1
Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment	Nov 15, 2023	Red TeamingSafety Alignment	CodeCode Available	1
MTSA: Multi-turn Safety Alignment for LLMs through Multi-round Red-teaming	May 22, 2025	Red TeamingSafety Alignment	CodeCode Available	1
SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types	Oct 29, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Soft Prompt Threats: Attacking Safety Alignment and Unlearning in Open-Source LLMs through the Embedding Space	Feb 14, 2024	Adversarial RobustnessSafety Alignment	CodeCode Available	1
Lisa: Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning Attack	May 28, 2024	Safety Alignment	CodeCode Available	1
Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment	Nov 27, 2024	Safety AlignmentVisual Reasoning	CodeCode Available	1
BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset	Jul 10, 2023	Question AnsweringSafety Alignment	CodeCode Available	1
Improving LLM Safety Alignment with Dual-Objective Optimization	Mar 5, 2025	Safety Alignment	CodeCode Available	1
Lifelong Safety Alignment for Language Models	May 26, 2025	Safety Alignment	CodeCode Available	1
Don't Say No: Jailbreaking LLM by Suppressing Refusal	Apr 25, 2024	Natural Language InferenceSafety Alignment	CodeCode Available	1
Bayesian scaling laws for in-context learning	Oct 21, 2024	In-Context LearningSafety Alignment	CodeCode Available	1
Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates	Feb 28, 2024	GSM8KSafety Alignment	CodeCode Available	1
Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization	Oct 5, 2023	AllLanguage Modeling	CodeCode Available	1
Locking Down the Finetuned LLMs Safety	Oct 14, 2024	Safety Alignment	CodeCode Available	1
Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable	Mar 1, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!	Feb 19, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Linear Control of Test Awareness Reveals Differential Compliance in Reasoning Models	May 20, 2025	Safety Alignment	CodeCode Available	1

Show:10 25 50

← PrevPage 3 of 12Next →

No leaderboard results yet.