Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 288 papers

Title	Date	Tasks	Status
Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models	May 26, 2025	Safety Alignment	—Unverified
Robustifying Safety-Aligned Large Language Models through Clean Data Curation	May 24, 2024	Safety Alignment	—Unverified
SafeArena: Evaluating the Safety of Autonomous Web Agents	Mar 6, 2025	MisinformationSafety Alignment	—Unverified
SafeCOMM: What about Safety Alignment in Fine-Tuned Telecom Large Language Models?	May 29, 2025	DiagnosticRed Teaming	—Unverified
SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety	May 26, 2025	Language ModelingLanguage Modelling	—Unverified
LLM Safeguard is a Double-Edged Sword: Exploiting False Positives for Denial-of-Service Attacks	Oct 3, 2024	Adversarial RobustnessSafety Alignment	—Unverified
SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models	Apr 9, 2025	Safety Alignment	—Unverified
SAFEPATH: Preventing Harmful Reasoning in Chain-of-Thought via Early Alignment	May 20, 2025	Safety Alignment	—Unverified
Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models	Mar 22, 2025	MisinformationSafe Reinforcement Learning	—Unverified
Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models	Nov 30, 2024	Safety Alignment	—Unverified
Safety Alignment Can Be Not Superficial With Explicit Safety Signals	May 19, 2025	Binary ClassificationData Augmentation	—Unverified
Safety Alignment for Vision Language Models	May 22, 2024	Red TeamingSafety Alignment	—Unverified
Safety Alignment via Constrained Knowledge Unlearning	May 24, 2025	knowledge editingSafety Alignment	—Unverified
SafetyDPO: Scalable Safety Alignment for Text-to-Image Generation	Dec 13, 2024	Image GenerationSafety Alignment	—Unverified
PANDAS: Improving Many-shot Jailbreaking via Positive Affirmation, Negative Demonstration, and Adaptive Sampling	Feb 4, 2025	Safety Alignment	CodeCode Available
Alignment-Enhanced Decoding:Defending via Token-Level Adaptive Refining of Probability Distributions	Aug 14, 2024	Safety Alignment	CodeCode Available
Exploiting Prefix-Tree in Structured Output Interfaces for Enhancing Jailbreak Attacking	Feb 19, 2025	Prompt EngineeringSafety Alignment	CodeCode Available
OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models	May 27, 2025	Safety Alignment	CodeCode Available
Separate the Wheat from the Chaff: A Post-Hoc Approach to Safety Re-Alignment for Fine-Tuned Language Models	Dec 15, 2024	Safety Alignment	CodeCode Available
Overriding Safety protections of Open-source Models	Sep 28, 2024	Red TeamingSafety Alignment	CodeCode Available
One-Shot Safety Alignment for Large Language Models via Optimal Dualization	May 29, 2024	Safety Alignment	CodeCode Available
Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge	Apr 8, 2024	General KnowledgeSafety Alignment	CodeCode Available
BitBypass: A New Direction in Jailbreaking Aligned Large Language Models with Bitstream Camouflage	Jun 3, 2025	Prompt EngineeringRed Teaming	CodeCode Available
AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models	May 29, 2025	Safety Alignment	CodeCode Available
Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model	May 10, 2025	Safety Alignment	CodeCode Available

Show:10 25 50

← PrevPage 10 of 12Next →

No leaderboard results yet.