SOTAVerified|Agents Browse Leaderboard About

Safety Alignment

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 276–288 of 288 papers

Title	Date	Tasks	Status	Hype
How Trustworthy are Open-Source LLMs? An Assessment under Malicious Demonstrations Shows their Vulnerabilities	Nov 15, 2023	EthicsFairness	CodeCode Available	0
DiaBlo: Diagonal Blocks Are Sufficient For Finetuning	Jun 3, 2025	Arithmetic ReasoningCode Generation	CodeCode Available	0
VSCBench: Bridging the Gap in Vision-Language Model Safety Calibration	May 26, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
SafeWorld: Geo-Diverse Safety Alignment	Dec 9, 2024	Safety Alignment	CodeCode Available	0
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models	Oct 7, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
Unlocking Adversarial Suffix Optimization Without Affirmative Phrases: Efficient Black-box Jailbreaking via LLM as Optimizer	Aug 21, 2024	Safety Alignment	CodeCode Available	0
Code-Switching Red-Teaming: LLM Evaluation for Safety and Multilingual Understanding	Jun 17, 2024	16kLanguage Modelling	CodeCode Available	0
SATA: A Paradigm for LLM Jailbreak via Simple Assistive Task Linkage	Dec 19, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
SAGE: A Generic Framework for LLM Safety Evaluation	Apr 28, 2025	Red TeamingSafety Alignment	CodeCode Available	0
SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings	Feb 18, 2025	GPUSafety Alignment	CodeCode Available	0
The Better Angels of Machine Personality: How Personality Relates to LLM Safety	Jul 17, 2024	FairnessSafety Alignment	CodeCode Available	0
TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis	May 30, 2025	DiversityLanguage Modeling	CodeCode Available	0
Can a large language model be a gaslighter?	Oct 11, 2024	Language ModelingLanguage Modelling	CodeCode Available	0

Show:10 25 50

← PrevPage 12 of 12Next →

No leaderboard results yet.