Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 288 papers

Title	Date	Tasks	Status	Score
Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge	Apr 8, 2024	General KnowledgeSafety Alignment	CodeCode Available	5
Alignment-Enhanced Decoding:Defending via Token-Level Adaptive Refining of Probability Distributions	Aug 14, 2024	Safety Alignment	CodeCode Available	5
PANDAS: Improving Many-shot Jailbreaking via Positive Affirmation, Negative Demonstration, and Adaptive Sampling	Feb 4, 2025	Safety Alignment	CodeCode Available	5
Code-Switching Red-Teaming: LLM Evaluation for Safety and Multilingual Understanding	Jun 17, 2024	16kLanguage Modelling	CodeCode Available	5
SafeWorld: Geo-Diverse Safety Alignment	Dec 9, 2024	Safety Alignment	CodeCode Available	5
One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs	May 23, 2025	AllSafety Alignment	CodeCode Available	5
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models	Oct 7, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model	May 10, 2025	Safety Alignment	CodeCode Available	5
SATA: A Paradigm for LLM Jailbreak via Simple Assistive Task Linkage	Dec 19, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Don't Command, Cultivate: An Exploratory Study of System-2 Alignment	Nov 26, 2024	Prompt EngineeringSafety Alignment	CodeCode Available	5
SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings	Feb 18, 2025	GPUSafety Alignment	CodeCode Available	5
Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering	May 21, 2025	BenchmarkingLanguage Modeling	CodeCode Available	5
Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks	Jan 18, 2025	Safety Alignment	CodeCode Available	5
OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models	May 27, 2025	Safety Alignment	CodeCode Available	5
Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models	Oct 31, 2024	Red TeamingSafety Alignment	CodeCode Available	5
Exploiting Prefix-Tree in Structured Output Interfaces for Enhancing Jailbreak Attacking	Feb 19, 2025	Prompt EngineeringSafety Alignment	CodeCode Available	5
Separate the Wheat from the Chaff: A Post-Hoc Approach to Safety Re-Alignment for Fine-Tuned Language Models	Dec 15, 2024	Safety Alignment	CodeCode Available	5
DuFFin: A Dual-Level Fingerprinting Framework for LLMs IP Protection	May 22, 2025	QuantizationSafety Alignment	CodeCode Available	5
Mitigating Fine-tuning Risks in LLMs via Safety-Aware Probing Optimization	May 22, 2025	Safety Alignment	CodeCode Available	5
Mitigating Safety Fallback in Editing-based Backdoor Injection on LLMs	Jun 16, 2025	DiversityModel Editing	CodeCode Available	5
AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models	May 29, 2025	Safety Alignment	CodeCode Available	5
One-Shot Safety Alignment for Large Language Models via Optimal Dualization	May 29, 2024	Safety Alignment	CodeCode Available	5
SeqAR: Jailbreak LLMs with Sequential Auto-Generated Characters	Jul 2, 2024	Red TeamingSafety Alignment	CodeCode Available	5
TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis	May 30, 2025	DiversityLanguage Modeling	CodeCode Available	5
Soteria: Language-Specific Functional Parameter Steering for Multilingual Safety Alignment	Feb 16, 2025	Safety Alignment	CodeCode Available	5
Unleashing the Unseen: Harnessing Benign Datasets for Jailbreaking Large Language Models	Oct 1, 2024	Safety Alignment	CodeCode Available	5
LLM Safety Alignment is Divergence Estimation in Disguise	Feb 2, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
Benign Samples Matter! Fine-tuning On Outlier Benign Samples Severely Breaks Safety	May 11, 2025	Outlier DetectionRed Teaming	CodeCode Available	5
BitBypass: A New Direction in Jailbreaking Aligned Large Language Models with Bitstream Camouflage	Jun 3, 2025	Prompt EngineeringRed Teaming	CodeCode Available	5
Can a large language model be a gaslighter?	Oct 11, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
DiaBlo: Diagonal Blocks Are Sufficient For Finetuning	Jun 3, 2025	Arithmetic ReasoningCode Generation	CodeCode Available	5
Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors	Jun 12, 2025	Question AnsweringSafety Alignment	CodeCode Available	5
Stochastic Monkeys at Play: Random Augmentations Cheaply Break LLM Safety Alignment	Nov 5, 2024	QuantizationSafety Alignment	CodeCode Available	5
StructTransform: A Scalable Attack Surface for Safety-Aligned Large Language Models	Feb 17, 2025	Safety Alignment	CodeCode Available	5
Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks	Oct 23, 2024	Instruction FollowingSafety Alignment	—Unverified	0
Toxic Subword Pruning for Dialogue Response Generation on Large Language Models	Oct 5, 2024	Language ModellingMachine Translation	—Unverified	0
Trojan Horse Prompting: Jailbreaking Conversational Multimodal Models by Forging Assistant Message	Jul 7, 2025	Image GenerationSafety Alignment	—Unverified	0
Trustworthy AI: Safety, Bias, and Privacy -- A Survey	Feb 11, 2025	Safety AlignmentSurvey	—Unverified	0
Jailbreak-AudioBench: In-Depth Evaluation and Analysis of Jailbreak Threats for Large Audio Language Models	Jan 23, 2025	Safety Alignment	—Unverified	0
TuneShield: Mitigating Toxicity in Conversational AI while Fine-tuning on Untrusted Data	Jul 8, 2025	ChatbotInstruction Following	—Unverified	0
Understanding and Mitigating Overrefusal in LLMs from an Unveiling Perspective of Safety Decision Boundary	May 23, 2025	Safety Alignment	—Unverified	0
Understanding and Rectifying Safety Perception Distortion in VLMs	Feb 18, 2025	DisentanglementSafety Alignment	—Unverified	0
Unfair Alignment: Examining Safety Alignment Across Vision Encoder Layers in Vision-Language Models	Nov 6, 2024	Safety Alignment	—Unverified	0
Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models	Oct 11, 2024	Safety Alignment	—Unverified	0
Utilizing Jailbreak Probability to Attack and Safeguard Multimodal LLMs	Mar 10, 2025	Binary ClassificationSafety Alignment	—Unverified	0
VLMGuard-R1: Proactive Safety Alignment for VLMs via Reasoning-Driven Prompt Optimization	Apr 17, 2025	Multimodal ReasoningSafety Alignment	—Unverified	0
VLM-Guard: Safeguarding Vision-Language Models via Fulfilling Safety Alignment Gap	Feb 14, 2025	AttributeSafety Alignment	—Unverified	0
Vulnerability-Aware Alignment: Mitigating Uneven Forgetting in Harmful Fine-Tuning	Jun 4, 2025	Safety Alignment	—Unverified	0
Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing	Feb 4, 2025	Safety Alignment	—Unverified	0
What's Pulling the Strings? Evaluating Integrity and Attribution in AI Training and Inference through Concept Shift	Apr 28, 2025	AttributeData Poisoning	—Unverified	0

Show:10 25 50

← PrevPage 3 of 6Next →

No leaderboard results yet.