SOTAVerified|Agents Browse Leaderboard About

Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 131–140 of 288 papers

Title	Date	Tasks	Status	Hype
"Haet Bhasha aur Diskrimineshun": Phonetic Perturbations in Code-Mixed Hinglish to Red-Team LLMs	May 20, 2025	Image GenerationRed Teaming	—Unverified	0
Safety Alignment Can Be Not Superficial With Explicit Safety Signals	May 19, 2025	Binary ClassificationData Augmentation	—Unverified	0
JULI: Jailbreak Large Language Models by Self-Introspection	May 17, 2025	Safety Alignment	—Unverified	0
SafeVid: Toward Safety Aligned Video Large Multimodal Models	May 17, 2025	Safety Alignment	—Unverified	0
Noise Injection Systemically Degrades Large Language Model Safety Guardrails	May 16, 2025	Language ModelingLanguage Modelling	—Unverified	0
CARES: Comprehensive Evaluation of Safety and Adversarial Robustness in Medical LLMs	May 16, 2025	Adversarial RobustnessSafety Alignment	—Unverified	0
Analysing Safety Risks in LLMs Fine-Tuned with Pseudo-Malicious Cyber Security Data	May 15, 2025	Malware DetectionSafety Alignment	—Unverified	0
One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models	May 12, 2025	Code GenerationSafety Alignment	—Unverified	0
FalseReject: A Resource for Improving Contextual Safety and Mitigating Over-Refusals in LLMs via Structured Reasoning	May 12, 2025	16kBenchmarking	—Unverified	0
Benign Samples Matter! Fine-tuning On Outlier Benign Samples Severely Breaks Safety	May 11, 2025	Outlier DetectionRed Teaming	CodeCode Available	0

Show:10 25 50

← PrevPage 14 of 29Next →

No leaderboard results yet.