SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1611–1620 of 5548 papers

Title	Date	Tasks	Status	Hype
Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques	Jun 6, 2025	BenchmarkingModel Selection	—Unverified	0
BestServe: Serving Strategies with Optimal Goodput in Collocation and Disaggregation Architectures	Jun 6, 2025	BenchmarkingCPU	—Unverified	0
Numerical Investigation of Sequence Modeling Theory using Controllable Memory Functions	Jun 6, 2025	BenchmarkingState Space Models	—Unverified	0
DeepFake Doctor: Diagnosing and Treating Audio-Video Fake Detection	Jun 6, 2025	BenchmarkingDeepFake Detection	—Unverified	0
MCA-Bench: A Multimodal Benchmark for Evaluating CAPTCHA Robustness Against VLM-based Attacks	Jun 6, 2025	Benchmarking	CodeCode Available	0
Benchmarking Misuse Mitigation Against Covert Adversaries	Jun 6, 2025	BenchmarkingLanguage Modeling	CodeCode Available	0
FRED: The Florence RGB-Event Drone Dataset	Jun 5, 2025	BenchmarkingTrajectory Forecasting	—Unverified	0
Design of intelligent proofreading system for English translation based on CNN and BERT	Jun 5, 2025	BenchmarkingMachine Translation	—Unverified	0
Debatable Intelligence: Benchmarking LLM Judges via Debate Speech Evaluation	Jun 5, 2025	Benchmarking	CodeCode Available	0
EMO-Debias: Benchmarking Gender Debiasing Techniques in Multi-Label Speech Emotion Recognition	Jun 5, 2025	BenchmarkingEmotion Recognition	—Unverified	0

Show:10 25 50

← PrevPage 162 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified