SOTAVerified|Agents Browse Leaderboard About

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 761–770 of 5548 papers

Title	Date	Tasks	Status	Hype
Heterogeneous graph neural networks for species distribution modeling	Mar 14, 2025	Benchmarking	—Unverified	0
V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning	Mar 14, 2025	BenchmarkingRelational Reasoning	—Unverified	0
RESPONSE: Benchmarking the Ability of Language Models to Undertake Commonsense Reasoning in Crisis Situation	Mar 14, 2025	Benchmarking	—Unverified	0
InverseBench: Benchmarking Plug-and-Play Diffusion Priors for Inverse Problems in Physical Sciences	Mar 14, 2025	BenchmarkingImage Restoration	—Unverified	0
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity	Mar 14, 2025	BenchmarkingDecision Making	—Unverified	0
Enhancing Hand Palm Motion Gesture Recognition by Eliminating Reference Frame Bias via Frame-Invariant Similarity Measures	Mar 14, 2025	BenchmarkingGesture Recognition	—Unverified	0
A Benchmarking Study of Vision-based Robotic Grasping Algorithms	Mar 14, 2025	BenchmarkingRobotic Grasping	CodeCode Available	0
GNNs as Predictors of Agentic Workflow Performances	Mar 14, 2025	BenchmarkingPosition	CodeCode Available	1
Dynamic Obstacle Avoidance with Bounded Rationality Adversarial Reinforcement Learning	Mar 14, 2025	BenchmarkingNavigate	—Unverified	0
VisTai: Benchmarking Vision-Language Models for Traditional Chinese in Taiwan	Mar 13, 2025	BenchmarkingDialogue Generation	CodeCode Available	1

Show:10 25 50

← PrevPage 77 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified