SOTAVerified|Agents Browse Leaderboard About

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 591–600 of 5548 papers

Title	Date	Tasks	Status	Hype
BEACON: A Benchmark for Efficient and Accurate Counting of Subgraphs	Apr 15, 2025	BenchmarkingSubgraph Counting	—Unverified	0
BoTTA: Benchmarking on-device Test Time Adaptation	Apr 14, 2025	BenchmarkingTest-time Adaptation	—Unverified	0
Foundation Models for Remote Sensing: An Analysis of MLLMs for Object Localization	Apr 14, 2025	BenchmarkingEarth Observation	—Unverified	0
COUNTS: Benchmarking Object Detectors and Multimodal Large Language Models under Distribution Shifts	Apr 14, 2025	BenchmarkingObject	—Unverified	0
LMFormer: Lane based Motion Prediction Transformer	Apr 14, 2025	Autonomous DrivingBenchmarking	—Unverified	0
Benchmarking 3D Human Pose Estimation Models Under Occlusions	Apr 14, 2025	3D Human Pose EstimationBenchmarking	—Unverified	0
CameraBench: Benchmarking Visual Reasoning in MLLMs via Photography	Apr 14, 2025	BenchmarkingVisual Reasoning	—Unverified	0
TinyverseGP: Towards a Modular Cross-domain Benchmarking Framework for Genetic Programming	Apr 14, 2025	BenchmarkingProgram Synthesis	CodeCode Available	1
Beyond Chains of Thought: Benchmarking Latent-Space Reasoning Abilities in Large Language Models	Apr 14, 2025	BenchmarkingDescriptive	—Unverified	0
Trade-offs in Privacy-Preserving Eye Tracking through Iris Obfuscation: A Benchmarking Study	Apr 14, 2025	BenchmarkingGaze Estimation	CodeCode Available	0

Show:10 25 50

← PrevPage 60 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified