SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3501–3510 of 5548 papers

Title	Date	Tasks	Status	Hype	Score
Benchmarking Large Multimodal Models for Ophthalmic Visual Question Answering with OphthalWeChat	May 26, 2025	BenchmarkingQuestion Answering	—Unverified	0	0
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations	Feb 10, 2025	BenchmarkingIn-Context Learning	—Unverified	0	0
MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors	Feb 26, 2025	Benchmarking	—Unverified	0	0
Matrix-Free Preconditioning in Online Learning	May 29, 2019	Benchmarking	—Unverified	0	0
Benchmarking Large Language Model Volatility	Nov 26, 2023	BenchmarkingDecision Making	—Unverified	0	0
Benchmarking Large Language Models with Integer Sequence Generation Tasks	Nov 7, 2024	BenchmarkingComputational Efficiency	—Unverified	0	0
Maximum Categorical Cross Entropy (MCCE): A noise-robust alternative loss function to mitigate racial bias in Convolutional Neural Networks (CNNs) by reducing overfitting	Jan 1, 2021	BenchmarkingGeneral Classification	—Unverified	0	0
MaxpoolNMS: Getting Rid of NMS Bottlenecks in Two-Stage Object Detectors	Jun 1, 2019	BenchmarkingGeneral Classification	—Unverified	0	0
Benchmarking Pre-Trained Time Series Models for Electricity Price Forecasting	Jun 9, 2025	BenchmarkingDecision Making	—Unverified	0	0
MBA-VO: Motion Blur Aware Visual Odometry	Mar 25, 2021	BenchmarkingVisual Odometry	—Unverified	0	0

Show:10 25 50

← PrevPage 351 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified