SOTAVerified|Agents Browse Leaderboard About

Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 171–180 of 288 papers

Title	Date	Tasks	Status	Hype	Score
Bootstrapping LLM Robustness for VLM Safety via Reducing the Pretraining Modality Gap	May 30, 2025	Safety Alignment	—Unverified	0	0
Break the Breakout: Reinventing LM Defense Against Jailbreak Attacks with Self-Refinement	Feb 23, 2024	Safety Alignment	—Unverified	0	0
C3AI: Crafting and Evaluating Constitutions for Constitutional AI	Feb 21, 2025	Safety Alignment	—Unverified	0	0
Can Large Language Models Automatically Jailbreak GPT-4V?	Jul 23, 2024	Face RecognitionIn-Context Learning	—Unverified	0	0
CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues	Apr 4, 2024	ChatbotInstruction Following	—Unverified	0	0
Code-Switching Curriculum Learning for Multilingual Transfer in LLMs	Nov 4, 2024	Cross-Lingual TransferLanguage Acquisition	—Unverified	0	0
Cognitive Overload: Jailbreaking Large Language Models with Overloaded Logical Thinking	Nov 16, 2023	Safety Alignment	—Unverified	0	0
Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements	Oct 11, 2024	Safety Alignment	—Unverified	0	0
Cross-Modal Safety Alignment: Is textual unlearning all you need?	May 27, 2024	AllSafety Alignment	—Unverified	0	0
CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning	May 22, 2025	Language ModelingLanguage Modelling	—Unverified	0	0

Show:10 25 50

← PrevPage 18 of 29Next →

No leaderboard results yet.