SOTAVerified|Agents Browse Leaderboard About Blog

Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 81–90 of 288 papers

Title	Date	Tasks	Status	Hype
Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization	Oct 5, 2023	AllLanguage Modeling	CodeCode Available	1
All Languages Matter: On the Multilingual Safety of Large Language Models	Oct 2, 2023	AllSafety Alignment	CodeCode Available	1
Who is ChatGPT? Benchmarking LLMs' Psychological Portrayal Using PsychoBench	Oct 2, 2023	BenchmarkingSafety Alignment	CodeCode Available	1
Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment	Aug 18, 2023	MMLURed Teaming	CodeCode Available	1
BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset	Jul 10, 2023	Question AnsweringSafety Alignment	CodeCode Available	1
TuneShield: Mitigating Toxicity in Conversational AI while Fine-tuning on Untrusted Data	Jul 8, 2025	ChatbotInstruction Following	—Unverified	0
Trojan Horse Prompting: Jailbreaking Conversational Multimodal Models by Forging Assistant Message	Jul 7, 2025	Image GenerationSafety Alignment	—Unverified	0
Just Enough Shifts: Mitigating Over-Refusal in Aligned Language Models with Targeted Representation Fine-Tuning	Jul 6, 2025	Safety Alignment	—Unverified	0
Security Assessment of DeepSeek and GPT Series Models against Jailbreak Attacks	Jun 23, 2025	Mixture-of-ExpertsSafety Alignment	—Unverified	0
Safe Pruning LoRA: Robust Distance-Guided Pruning for Safety Alignment in Adaptation of LLMs	Jun 21, 2025	Safety Alignment	CodeCode Available	0

Show:10 25 50

← PrevPage 9 of 29Next →

No leaderboard results yet.