SOTAVerified|Agents Browse Leaderboard About

Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 71–80 of 288 papers

Title	Date	Tasks	Status	Hype
SAGE: A Generic Framework for LLM Safety Evaluation	Apr 28, 2025	Red TeamingSafety Alignment	CodeCode Available	0
What's Pulling the Strings? Evaluating Integrity and Attribution in AI Training and Inference through Concept Shift	Apr 28, 2025	AttributeData Poisoning	—Unverified	0
DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models	Apr 25, 2025	DisentanglementSafety Alignment	CodeCode Available	0
AI Awareness	Apr 25, 2025	Safety Alignment	—Unverified	0
aiXamine: Simplified LLM Safety and Security	Apr 21, 2025	2kAdversarial Robustness	—Unverified	0
Towards NSFW-Free Text-to-Image Generation via Safety-Constraint Direct Preference Optimization	Apr 19, 2025	Contrastive LearningImage Generation	—Unverified	0
Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models	Apr 18, 2025	Safety Alignment	—Unverified	0
VLMGuard-R1: Proactive Safety Alignment for VLMs via Reasoning-Driven Prompt Optimization	Apr 17, 2025	Multimodal ReasoningSafety Alignment	—Unverified	0
X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents	Apr 15, 2025	DiversityRed Teaming	—Unverified	0
RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability	Apr 14, 2025	Safety Alignment	—Unverified	0

Show:10 25 50

← PrevPage 8 of 29Next →

No leaderboard results yet.