SOTAVerified|Agents Browse Leaderboard About

Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 141–150 of 288 papers

Title	Date	Tasks	Status	Hype
Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks	Jan 18, 2025	Safety Alignment	CodeCode Available	0
PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models	Jan 7, 2025	Image GenerationSafety Alignment	—Unverified	0
SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation	Jan 3, 2025	parameter-efficient fine-tuningSafety Alignment	—Unverified	0
SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Models	Jan 1, 2025	Safety Alignment	—Unverified	0
SATA: A Paradigm for LLM Jailbreak via Simple Assistive Task Linkage	Dec 19, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
Autonomous Microscopy Experiments through Large Language Model Agents	Dec 18, 2024	BenchmarkingExperimental Design	CodeCode Available	1
Separate the Wheat from the Chaff: A Post-Hoc Approach to Safety Re-Alignment for Fine-Tuned Language Models	Dec 15, 2024	Safety Alignment	CodeCode Available	0
No Free Lunch for Defending Against Prefilling Attack by In-Context Learning	Dec 13, 2024	In-Context LearningSafety Alignment	—Unverified	0
SafetyDPO: Scalable Safety Alignment for Text-to-Image Generation	Dec 13, 2024	Image GenerationSafety Alignment	—Unverified	0
Model-Editing-Based Jailbreak against Safety-aligned Large Language Models	Dec 11, 2024	Model EditingSafety Alignment	—Unverified	0

Show:10 25 50

← PrevPage 15 of 29Next →

No leaderboard results yet.