Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 176–200 of 288 papers

Title	Date	Tasks	Status
Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region	Feb 19, 2025	Decision MakingSafety Alignment	—Unverified
SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings	Feb 18, 2025	GPUSafety Alignment	CodeCode Available
Understanding and Rectifying Safety Perception Distortion in VLMs	Feb 18, 2025	DisentanglementSafety Alignment	—Unverified
DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing	Feb 17, 2025	Decision MakingLanguage Modeling	—Unverified
Equilibrate RLHF: Towards Balancing Helpfulness-Safety Trade-off in Large Language Models	Feb 17, 2025	Safety Alignment	—Unverified
StructTransform: A Scalable Attack Surface for Safety-Aligned Large Language Models	Feb 17, 2025	Safety Alignment	CodeCode Available
Soteria: Language-Specific Functional Parameter Steering for Multilingual Safety Alignment	Feb 16, 2025	Safety Alignment	CodeCode Available
VLM-Guard: Safeguarding Vision-Language Models via Fulfilling Safety Alignment Gap	Feb 14, 2025	AttributeSafety Alignment	—Unverified
Trustworthy AI: Safety, Bias, and Privacy -- A Survey	Feb 11, 2025	Safety AlignmentSurvey	—Unverified
AI Alignment at Your Discretion	Feb 10, 2025	Safety Alignment	—Unverified
Refining Positive and Toxic Samples for Dual Safety Self-Alignment of LLMs with Minimal Human Interventions	Feb 8, 2025	Safety Alignment	—Unverified
Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing	Feb 4, 2025	Safety Alignment	—Unverified
PANDAS: Improving Many-shot Jailbreaking via Positive Affirmation, Negative Demonstration, and Adaptive Sampling	Feb 4, 2025	Safety Alignment	CodeCode Available
Internal Activation as the Polar Star for Steering Unsafe LLM Behavior	Feb 3, 2025	Safety Alignment	—Unverified
The dark deep side of DeepSeek: Fine-tuning attacks against the safety alignment of CoT-enabled models	Feb 3, 2025	Safety Alignment	—Unverified
LLM Safety Alignment is Divergence Estimation in Disguise	Feb 2, 2025	Language ModelingLanguage Modelling	CodeCode Available
Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning	Jan 31, 2025	BlockingSafety Alignment	—Unverified
Towards Safe AI Clinicians: A Comprehensive Study on Large Language Model Jailbreaking in Healthcare	Jan 27, 2025	Language ModelingLanguage Modelling	—Unverified
Jailbreak-AudioBench: In-Depth Evaluation and Analysis of Jailbreak Threats for Large Audio Language Models	Jan 23, 2025	Safety Alignment	—Unverified
Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks	Jan 18, 2025	Safety Alignment	CodeCode Available
PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models	Jan 7, 2025	Image GenerationSafety Alignment	—Unverified
SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation	Jan 3, 2025	parameter-efficient fine-tuningSafety Alignment	—Unverified
SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Models	Jan 1, 2025	Safety Alignment	—Unverified
SATA: A Paradigm for LLM Jailbreak via Simple Assistive Task Linkage	Dec 19, 2024	Language ModelingLanguage Modelling	CodeCode Available
Separate the Wheat from the Chaff: A Post-Hoc Approach to Safety Re-Alignment for Fine-Tuned Language Models	Dec 15, 2024	Safety Alignment	CodeCode Available

Show:10 25 50

← PrevPage 8 of 12Next →

No leaderboard results yet.