Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 288 papers

Title	Date	Tasks	Status	Hype
Bootstrapping LLM Robustness for VLM Safety via Reducing the Pretraining Modality Gap	May 30, 2025	Safety Alignment	—Unverified	0
TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis	May 30, 2025	DiversityLanguage Modeling	CodeCode Available	0
SafeCOMM: What about Safety Alignment in Fine-Tuned Telecom Large Language Models?	May 29, 2025	DiagnosticRed Teaming	—Unverified	0
EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions	May 29, 2025	Safety Alignment	—Unverified	0
AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models	May 29, 2025	Safety Alignment	CodeCode Available	0
Seeing the Threat: Vulnerabilities in Vision-Language Models to Adversarial Attack	May 28, 2025	Adversarial AttackSafety Alignment	—Unverified	0
PoisonSwarm: Universal Harmful Information Synthesis via Model Crowdsourcing	May 27, 2025	counterfactualDiversity	—Unverified	0
SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge	May 27, 2025	BenchmarkingMultiple-choice	—Unverified	0
OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models	May 27, 2025	Safety Alignment	CodeCode Available	0
VSCBench: Bridging the Gap in Vision-Language Model Safety Calibration	May 26, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety	May 26, 2025	Language ModelingLanguage Modelling	—Unverified	0
Beyond Safe Answers: A Benchmark for Evaluating True Risk Awareness in Large Reasoning Models	May 26, 2025	Safety Alignment	CodeCode Available	0
Lifelong Safety Alignment for Language Models	May 26, 2025	Safety Alignment	CodeCode Available	1
Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models	May 26, 2025	Safety Alignment	—Unverified	0
Does Representation Intervention Really Identify Desired Concepts and Elicit Alignment?	May 24, 2025	Code GenerationMath	—Unverified	0
Safety Alignment via Constrained Knowledge Unlearning	May 24, 2025	knowledge editingSafety Alignment	—Unverified	0
Understanding and Mitigating Overrefusal in LLMs from an Unveiling Perspective of Safety Decision Boundary	May 23, 2025	Safety Alignment	—Unverified	0
Alignment and Safety of Diffusion Models via Reinforcement Learning and Reward Modeling: A Survey	May 23, 2025	Active LearningReinforcement Learning (RL)	—Unverified	0
One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs	May 23, 2025	AllSafety Alignment	CodeCode Available	0
Shape it Up! Restoring LLM Safety during Finetuning	May 22, 2025	Safety Alignment	—Unverified	0
MTSA: Multi-turn Safety Alignment for LLMs through Multi-round Red-teaming	May 22, 2025	Red TeamingSafety Alignment	CodeCode Available	1
From Evaluation to Defense: Advancing Safety in Video Large Language Models	May 22, 2025	Safety Alignment	—Unverified	0
MPO: Multilingual Safety Alignment via Reward Gap Optimization	May 22, 2025	Safety Alignment	CodeCode Available	1
CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning	May 22, 2025	Language ModelingLanguage Modelling	—Unverified	0
DuFFin: A Dual-Level Fingerprinting Framework for LLMs IP Protection	May 22, 2025	QuantizationSafety Alignment	CodeCode Available	0

Show:10 25 50

← PrevPage 2 of 12Next →

No leaderboard results yet.