SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2181–2190 of 5548 papers

Title	Date	Tasks	Status	Hype
Is Your Paper Being Reviewed by an LLM? A New Benchmark Dataset and Approach for Detecting AI Text in Peer Review	Feb 26, 2025	BenchmarkingText Detection	—Unverified	0
MEBench: Benchmarking Large Language Models for Cross-Document Multi-Entity Question Answering	Feb 26, 2025	BenchmarkingQuestion Answering	—Unverified	0
Modelling Regional Solar Photovoltaic Capacity in Great Britain	Feb 26, 2025	Benchmarking	—Unverified	0
Improved YOLOv12 with LLM-Generated Synthetic Data for Enhanced Apple Detection and Benchmarking Against YOLOv11 and YOLOv10	Feb 26, 2025	Benchmarkingobject-detection	—Unverified	0
MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors	Feb 26, 2025	Benchmarking	—Unverified	0
Agentic Mixture-of-Workflows for Multi-Modal Chemical Search	Feb 26, 2025	BenchmarkingRetrieval	—Unverified	0
Safe Multi-Agent Navigation guided by Goal-Conditioned Safe Reinforcement Learning	Feb 25, 2025	BenchmarkingReinforcement Learning (RL)	CodeCode Available	0
OpenFly: A Comprehensive Platform for Aerial Vision-Language Navigation	Feb 25, 2025	BenchmarkingSemantic Segmentation	—Unverified	0
CayleyPy RL: Pathfinding and Reinforcement Learning on Cayley Graphs	Feb 25, 2025	Benchmarkingreinforcement-learning	—Unverified	0
Science Across Languages: Assessing LLM Multilingual Translation of Scientific Papers	Feb 25, 2025	ArticlesBenchmarking	—Unverified	0

Show:10 25 50

← PrevPage 219 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified