SOTAVerified|Agents Browse Leaderboard About

Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–210 of 288 papers

Title	Date	Tasks	Status	Hype
Toxic Subword Pruning for Dialogue Response Generation on Large Language Models	Oct 5, 2024	Language ModellingMachine Translation	—Unverified	0
Trojan Horse Prompting: Jailbreaking Conversational Multimodal Models by Forging Assistant Message	Jul 7, 2025	Image GenerationSafety Alignment	—Unverified	0
Trustworthy AI: Safety, Bias, and Privacy -- A Survey	Feb 11, 2025	Safety AlignmentSurvey	—Unverified	0
Jailbreak-AudioBench: In-Depth Evaluation and Analysis of Jailbreak Threats for Large Audio Language Models	Jan 23, 2025	Safety Alignment	—Unverified	0
TuneShield: Mitigating Toxicity in Conversational AI while Fine-tuning on Untrusted Data	Jul 8, 2025	ChatbotInstruction Following	—Unverified	0
Understanding and Mitigating Overrefusal in LLMs from an Unveiling Perspective of Safety Decision Boundary	May 23, 2025	Safety Alignment	—Unverified	0
Understanding and Rectifying Safety Perception Distortion in VLMs	Feb 18, 2025	DisentanglementSafety Alignment	—Unverified	0
Unfair Alignment: Examining Safety Alignment Across Vision Encoder Layers in Vision-Language Models	Nov 6, 2024	Safety Alignment	—Unverified	0
Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models	Oct 11, 2024	Safety Alignment	—Unverified	0
Utilizing Jailbreak Probability to Attack and Safeguard Multimodal LLMs	Mar 10, 2025	Binary ClassificationSafety Alignment	—Unverified	0

Show:10 25 50

← PrevPage 21 of 29Next →

No leaderboard results yet.