SOTAVerified|Agents Browse Leaderboard About

Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 161–170 of 288 papers

Title	Date	Tasks	Status	Hype
Playing Language Game with LLMs Leads to Jailbreaking	Nov 16, 2024	Safety Alignment	—Unverified	0
Unfair Alignment: Examining Safety Alignment Across Vision Encoder Layers in Vision-Language Models	Nov 6, 2024	Safety Alignment	—Unverified	0
Stochastic Monkeys at Play: Random Augmentations Cheaply Break LLM Safety Alignment	Nov 5, 2024	QuantizationSafety Alignment	CodeCode Available	0
Code-Switching Curriculum Learning for Multilingual Transfer in LLMs	Nov 4, 2024	Cross-Lingual TransferLanguage Acquisition	—Unverified	0
Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models	Oct 31, 2024	Red TeamingSafety Alignment	CodeCode Available	0
Smaller Large Language Models Can Do Moral Self-Correction	Oct 30, 2024	Language ModelingLanguage Modelling	—Unverified	0
SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types	Oct 29, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization	Oct 25, 2024	Safety Alignment	CodeCode Available	0
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities	Oct 24, 2024	Safety Alignment	CodeCode Available	0
Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks	Oct 23, 2024	Instruction FollowingSafety Alignment	—Unverified	0

Show:10 25 50

← PrevPage 17 of 29Next →

No leaderboard results yet.