SOTAVerified|Agents Browse Leaderboard About

Red Teaming

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–210 of 251 papers

Title	Date	Tasks	Status	Hype
CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge	Apr 10, 2024	Red Teaming	—Unverified	0
Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?	Apr 4, 2024	Red Teaming	CodeCode Available	0
Red-Teaming Segment Anything Model	Apr 2, 2024	Image Segmentationmodel	CodeCode Available	0
Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code	Mar 30, 2024	Continual PretrainingLanguage Modelling	—Unverified	0
IterAlign: Iterative Constitutional Alignment of Large Language Models	Mar 27, 2024	Red Teaming	—Unverified	0
HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback	Mar 13, 2024	Language ModellingLarge Language Model	—Unverified	0
Distract Large Language Models for Automatic Jailbreak Attack	Mar 13, 2024	Red Teaming	CodeCode Available	0
Red Teaming Models for Hyperspectral Image Analysis Using Explainable AI	Mar 12, 2024	Hyperspectral image analysisHYPERVIEW Challenge	—Unverified	0
A Safe Harbor for AI Evaluation and Red Teaming	Mar 7, 2024	Red Teaming	—Unverified	0
Aligners: Decoupling LLMs and Alignment	Mar 7, 2024	Instruction FollowingRed Teaming	CodeCode Available	0

Show:10 25 50

← PrevPage 21 of 26Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SUDO	Attack Success Rate	41	—	Unverified