SOTAVerified|Agents Browse Leaderboard About

Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 211–220 of 288 papers

Title	Date	Tasks	Status	Hype
PSA-VLM: Enhancing Vision-Language Model Safety through Progressive Concept-Bottleneck-Driven Alignment	Nov 18, 2024	Language ModelingLanguage Modelling	—Unverified	0
Playing Language Game with LLMs Leads to Jailbreaking	Nov 16, 2024	Safety Alignment	—Unverified	0
Unfair Alignment: Examining Safety Alignment Across Vision Encoder Layers in Vision-Language Models	Nov 6, 2024	Safety Alignment	—Unverified	0
Stochastic Monkeys at Play: Random Augmentations Cheaply Break LLM Safety Alignment	Nov 5, 2024	QuantizationSafety Alignment	CodeCode Available	0
Code-Switching Curriculum Learning for Multilingual Transfer in LLMs	Nov 4, 2024	Cross-Lingual TransferLanguage Acquisition	—Unverified	0
Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models	Oct 31, 2024	Red TeamingSafety Alignment	CodeCode Available	0
Smaller Large Language Models Can Do Moral Self-Correction	Oct 30, 2024	Language ModelingLanguage Modelling	—Unverified	0
Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization	Oct 25, 2024	Safety Alignment	CodeCode Available	0
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities	Oct 24, 2024	Safety Alignment	CodeCode Available	0
Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks	Oct 23, 2024	Instruction FollowingSafety Alignment	—Unverified	0

Show:10 25 50

← PrevPage 22 of 29Next →

No leaderboard results yet.