SOTAVerified|Agents Browse Leaderboard About

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–210 of 5548 papers

Title	Date	Tasks	Status	Hype	Score
Exponentially Faster Language Modelling	Nov 15, 2023	BenchmarkingCPU	CodeCode Available	2	5
A large annotated medical image dataset for the development and evaluation of segmentation algorithms	Feb 25, 2019	BenchmarkingSegmentation	CodeCode Available	2	5
GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks	Nov 28, 2024	BenchmarkingObject Counting	CodeCode Available	2	5
GlobalGeoTree: A Multi-Granular Vision-Language Dataset for Global Tree Species Classification	May 18, 2025	Benchmarking	CodeCode Available	2	5
BARS: Towards Open Benchmarking for Recommender Systems	May 19, 2022	BenchmarkingClick-Through Rate Prediction	CodeCode Available	2	5
EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models	Dec 11, 2023	BenchmarkingEmotional Intelligence	CodeCode Available	2	5
EV2Gym: A Flexible V2G Simulator for EV Smart Charging Research and Benchmarking	Apr 2, 2024	BenchmarkingReinforcement Learning (RL)	CodeCode Available	2	5
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing	Apr 3, 2025	BenchmarkingLogical Reasoning	CodeCode Available	2	5
ADATIME: A Benchmarking Suite for Domain Adaptation on Time Series Data	Mar 15, 2022	BenchmarkingDomain Adaptation	CodeCode Available	2	5
EvalGIM: A Library for Evaluating Generative Image Models	Dec 13, 2024	BenchmarkingDiversity	CodeCode Available	2	5

Show:10 25 50

← PrevPage 21 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified