SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3321–3330 of 5548 papers

Title	Date	Tasks	Status	Hype
ManipBench: Benchmarking Vision-Language Models for Low-Level Robot Manipulation	May 14, 2025	BenchmarkingDeformable Object Manipulation	—Unverified	0
MANTA: A Large-Scale Multi-View and Visual-Text Anomaly Detection Dataset for Tiny Objects	Dec 6, 2024	2kAnomaly Detection	—Unverified	0
Manual Verbalizer Enrichment for Few-Shot Text Classification	Oct 8, 2024	BenchmarkingClassification	—Unverified	0
Mapping global dynamics of benchmark creation and saturation in artificial intelligence	Mar 9, 2022	Benchmarking	—Unverified	0
Mapping Violence: Developing an Extensive Framework to Build a Bangla Sectarian Expression Dataset from Social Media Interactions	Apr 17, 2024	Benchmarking	—Unverified	0
MarineGym: A High-Performance Reinforcement Learning Platform for Underwater Robotics	Mar 12, 2025	BenchmarkingGPU	—Unverified	0
Match Stereo Videos via Bidirectional Alignment	Sep 30, 2024	BenchmarkingStereo Matching	—Unverified	0
MaterioMiner -- An ontology-based text mining dataset for extraction of process-structure-property entities	Aug 5, 2024	BenchmarkingGraph Generation	—Unverified	0
(N,K)-Puzzle: A Cost-Efficient Testbed for Benchmarking Reinforcement Learning Algorithms in Generative Language Model	Mar 11, 2024	BenchmarkingLanguage Modeling	—Unverified	0
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations	Feb 10, 2025	BenchmarkingIn-Context Learning	—Unverified	0

Show:10 25 50

← PrevPage 333 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified