Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 288 papers

Title	Date	Tasks	Status
Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models	Jun 12, 2024	Instruction FollowingSafety Alignment	—Unverified
Model Card and Evaluations for Claude Models	Jul 11, 2023	Arithmetic ReasoningBug fixing	—Unverified
Model-Editing-Based Jailbreak against Safety-aligned Large Language Models	Dec 11, 2024	Model EditingSafety Alignment	—Unverified
Model Merging and Safety Alignment: One Bad Model Spoils the Bunch	Jun 20, 2024	modelSafety Alignment	—Unverified
More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment	Apr 3, 2025	ARCHellaSwag	—Unverified
Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture	Jul 10, 2024	Safety Alignment	—Unverified
Na'vi or Knave: Jailbreaking Language Models via Metaphorical Avatars	Dec 10, 2024	Safety Alignment	—Unverified
NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models	Apr 29, 2025	Safety Alignment	—Unverified
No Free Lunch for Defending Against Prefilling Attack by In-Context Learning	Dec 13, 2024	In-Context LearningSafety Alignment	—Unverified
Noise Injection Systemically Degrades Large Language Model Safety Guardrails	May 16, 2025	Language ModelingLanguage Modelling	—Unverified
No Two Devils Alike: Unveiling Distinct Mechanisms of Fine-tuning Attacks	May 25, 2024	Safety Alignment	—Unverified
Off-Policy Risk Assessment in Markov Decision Processes	Sep 21, 2022	Multi-Armed BanditsSafety Alignment	—Unverified
One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models	May 12, 2025	Code GenerationSafety Alignment	—Unverified
RLHFPoison: Reward Poisoning Attack for Reinforcement Learning with Human Feedback in Large Language Models	Nov 16, 2023	Backdoor AttackData Poisoning	—Unverified
On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept	Jun 4, 2024	Question AnsweringSafety Alignment	—Unverified
PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach	Sep 21, 2024	Multi-agent Reinforcement LearningSafety Alignment	—Unverified
PEFT-as-an-Attack! Jailbreaking Language Models during Federated Parameter-Efficient Fine-Tuning	Nov 28, 2024	Federated Learningparameter-efficient fine-tuning	—Unverified
PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference	Jun 20, 2024	Question AnsweringSafety Alignment	—Unverified
Playing Language Game with LLMs Leads to Jailbreaking	Nov 16, 2024	Safety Alignment	—Unverified
PoisonSwarm: Universal Harmful Information Synthesis via Model Crowdsourcing	May 27, 2025	counterfactualDiversity	—Unverified
Safety is Not Only About Refusal: Reasoning-Enhanced Fine-tuning for Interpretable LLM Safety	Mar 6, 2025	Decision MakingSafety Alignment	—Unverified
SafeVid: Toward Safety Aligned Video Large Multimodal Models	May 17, 2025	Safety Alignment	—Unverified
SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning	Mar 5, 2025	Safe Reinforcement LearningSafety Alignment	—Unverified
SAFEx: Analyzing Vulnerabilities of MoE-Based LLMs via Stable Safety-critical Expert Identification	Jun 20, 2025	Mixture-of-ExpertsResponse Generation	—Unverified
SAGE-RT: Synthetic Alignment data Generation for Safety Evaluation and Red Teaming	Aug 14, 2024	Red TeamingSafety Alignment	—Unverified
SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation	Jan 3, 2025	parameter-efficient fine-tuningSafety Alignment	—Unverified
SciSafeEval: A Comprehensive Benchmark for Safety Alignment of Large Language Models in Scientific Tasks	Oct 2, 2024	Safety Alignment	—Unverified
Security Assessment of DeepSeek and GPT Series Models against Jailbreak Attacks	Jun 23, 2025	Mixture-of-ExpertsSafety Alignment	—Unverified
SecurityLingua: Efficient Defense of LLM Jailbreak Attacks via Security-Aware Prompt Compression	Jun 15, 2025	LLM JailbreakSafety Alignment	—Unverified
Seeing the Threat: Vulnerabilities in Vision-Language Models to Adversarial Attack	May 28, 2025	Adversarial AttackSafety Alignment	—Unverified
SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner	Jun 8, 2024	Adversarial AttackLLM Jailbreak	—Unverified
Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models	Oct 4, 2023	GPUSafety Alignment	—Unverified
Shape it Up! Restoring LLM Safety during Finetuning	May 22, 2025	Safety Alignment	—Unverified
Smaller Large Language Models Can Do Moral Self-Correction	Oct 30, 2024	Language ModelingLanguage Modelling	—Unverified
SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge	May 27, 2025	BenchmarkingMultiple-choice	—Unverified
SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Models	Jan 1, 2025	Safety Alignment	—Unverified
SPIN: Self-Supervised Prompt INjection	Oct 17, 2024	Safety Alignment	—Unverified
STAR-1: Safer Alignment of Reasoning LLMs with 1K Data	Apr 2, 2025	DiversitySafety Alignment	—Unverified
sudoLLM : On Multi-role Alignment of Language Models	May 20, 2025	Language ModelingLanguage Modelling	—Unverified
Superficial Safety Alignment Hypothesis	Oct 7, 2024	AttributeBinary Classification	—Unverified
Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks	Oct 16, 2023	Adversarial AttackFederated Learning	—Unverified
The dark deep side of DeepSeek: Fine-tuning attacks against the safety alignment of CoT-enabled models	Feb 3, 2025	Safety Alignment	—Unverified
The Geometry of Refusal in Large Language Models: Concept Cones and Representational Independence	Feb 24, 2025	Safety Alignment	—Unverified
The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm	Jun 26, 2024	Cross-Lingual TransferRed Teaming	—Unverified
Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models	Apr 18, 2025	Safety Alignment	—Unverified
Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching	May 22, 2024	Safety Alignment	—Unverified
Towards Inference-time Category-wise Safety Steering for Large Language Models	Oct 2, 2024	Safety Alignment	—Unverified
Towards NSFW-Free Text-to-Image Generation via Safety-Constraint Direct Preference Optimization	Apr 19, 2025	Contrastive LearningImage Generation	—Unverified
Towards Safe AI Clinicians: A Comprehensive Study on Large Language Model Jailbreaking in Healthcare	Jan 27, 2025	Language ModelingLanguage Modelling	—Unverified
Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks	Oct 23, 2024	Instruction FollowingSafety Alignment	—Unverified

Show:10 25 50

← PrevPage 4 of 6Next →

No leaderboard results yet.