Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–175 of 288 papers

Title	Date	Tasks	Status
Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models	Jun 12, 2024	Instruction FollowingSafety Alignment	—Unverified
Model Card and Evaluations for Claude Models	Jul 11, 2023	Arithmetic ReasoningBug fixing	—Unverified
Model-Editing-Based Jailbreak against Safety-aligned Large Language Models	Dec 11, 2024	Model EditingSafety Alignment	—Unverified
Model Merging and Safety Alignment: One Bad Model Spoils the Bunch	Jun 20, 2024	modelSafety Alignment	—Unverified
More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment	Apr 3, 2025	ARCHellaSwag	—Unverified
Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture	Jul 10, 2024	Safety Alignment	—Unverified
Na'vi or Knave: Jailbreaking Language Models via Metaphorical Avatars	Dec 10, 2024	Safety Alignment	—Unverified
NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models	Apr 29, 2025	Safety Alignment	—Unverified
No Free Lunch for Defending Against Prefilling Attack by In-Context Learning	Dec 13, 2024	In-Context LearningSafety Alignment	—Unverified
Noise Injection Systemically Degrades Large Language Model Safety Guardrails	May 16, 2025	Language ModelingLanguage Modelling	—Unverified
No Two Devils Alike: Unveiling Distinct Mechanisms of Fine-tuning Attacks	May 25, 2024	Safety Alignment	—Unverified
Off-Policy Risk Assessment in Markov Decision Processes	Sep 21, 2022	Multi-Armed BanditsSafety Alignment	—Unverified
One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models	May 12, 2025	Code GenerationSafety Alignment	—Unverified
RLHFPoison: Reward Poisoning Attack for Reinforcement Learning with Human Feedback in Large Language Models	Nov 16, 2023	Backdoor AttackData Poisoning	—Unverified
On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept	Jun 4, 2024	Question AnsweringSafety Alignment	—Unverified
PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach	Sep 21, 2024	Multi-agent Reinforcement LearningSafety Alignment	—Unverified
PEFT-as-an-Attack! Jailbreaking Language Models during Federated Parameter-Efficient Fine-Tuning	Nov 28, 2024	Federated Learningparameter-efficient fine-tuning	—Unverified
PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference	Jun 20, 2024	Question AnsweringSafety Alignment	—Unverified
Playing Language Game with LLMs Leads to Jailbreaking	Nov 16, 2024	Safety Alignment	—Unverified
PoisonSwarm: Universal Harmful Information Synthesis via Model Crowdsourcing	May 27, 2025	counterfactualDiversity	—Unverified
Safety is Not Only About Refusal: Reasoning-Enhanced Fine-tuning for Interpretable LLM Safety	Mar 6, 2025	Decision MakingSafety Alignment	—Unverified
SafeVid: Toward Safety Aligned Video Large Multimodal Models	May 17, 2025	Safety Alignment	—Unverified
SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning	Mar 5, 2025	Safe Reinforcement LearningSafety Alignment	—Unverified
SAFEx: Analyzing Vulnerabilities of MoE-Based LLMs via Stable Safety-critical Expert Identification	Jun 20, 2025	Mixture-of-ExpertsResponse Generation	—Unverified
SAGE-RT: Synthetic Alignment data Generation for Safety Evaluation and Red Teaming	Aug 14, 2024	Red TeamingSafety Alignment	—Unverified

Show:10 25 50

← PrevPage 7 of 12Next →

No leaderboard results yet.