SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2071–2080 of 5548 papers

Title	Date	Tasks	Status	Hype
Regularization of ML models for Earth systems by using longer model timesteps	Mar 23, 2025	Benchmarking	—Unverified	0
Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering	Mar 23, 2025	BenchmarkingChart Question Answering	—Unverified	0
A Study on Neuro-Symbolic Artificial Intelligence: Healthcare Perspectives	Mar 23, 2025	BenchmarkingCommon Sense Reasoning	—Unverified	0
Accurate Peak Detection in Multimodal Optimization via Approximated Landscape Learning	Mar 23, 2025	Benchmarking	CodeCode Available	0
CardioTabNet: A Novel Hybrid Transformer Model for Heart Disease Prediction using Tabular Medical Data	Mar 22, 2025	BenchmarkingDisease Prediction	—Unverified	0
Benchmark Dataset for Pore-Scale CO2-Water Interaction	Mar 22, 2025	Benchmarking	—Unverified	0
IceBench: A Benchmark for Deep Learning based Sea Ice Type Classification	Mar 22, 2025	BenchmarkingClassification	CodeCode Available	0
4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding	Mar 22, 2025	BenchmarkingObject	CodeCode Available	0
CausalRivers -- Scaling up benchmarking of causal discovery for real-world time-series	Mar 21, 2025	Anomaly DetectionBenchmarking	—Unverified	0
DNR Bench: Benchmarking Over-Reasoning in Reasoning LLMs	Mar 20, 2025	BenchmarkingHallucination	—Unverified	0

Show:10 25 50

← PrevPage 208 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified