SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1791–1800 of 5548 papers

Title	Date	Tasks	Status	Hype
IN-Sight: Interactive Navigation through Sight	Aug 1, 2024	BenchmarkingNavigate	—Unverified	0
High-Quality, ROS Compatible Video Encoding and Decoding for High-Definition Datasets	Aug 1, 2024	BenchmarkingSimultaneous Localization and Mapping	CodeCode Available	0
Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model	Jul 31, 2024	BenchmarkingLarge Language Model	CodeCode Available	0
KemenkeuGPT: Leveraging a Large Language Model on Indonesia's Government Financial Data and Regulations to Enhance Decision Making	Jul 31, 2024	BenchmarkingDecision Making	—Unverified	0
Efficient Channel Estimation for Millimeter Wave and Terahertz Systems Enabled by Integrated Super-resolution Sensing and Communication	Jul 30, 2024	BenchmarkingSuper-Resolution	—Unverified	0
TaskEval: Assessing Difficulty of Code Generation Tasks for Large Language Models	Jul 30, 2024	BenchmarkingCode Completion	—Unverified	0
GNUMAP: A Parameter-Free Approach to Unsupervised Dimensionality Reduction via Graph Neural Networks	Jul 30, 2024	BenchmarkingContrastive Learning	—Unverified	0
Benchmarking Histopathology Foundation Models for Ovarian Cancer Bevacizumab Treatment Response Prediction from Whole Slide Images	Jul 30, 2024	BenchmarkingMultiple Instance Learning	—Unverified	0
Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks	Jul 29, 2024	BenchmarkingLanguage Model Evaluation	—Unverified	0
Anomalous State Sequence Modeling to Enhance Safety in Reinforcement Learning	Jul 29, 2024	Anomaly DetectionBenchmarking	—Unverified	0

Show:10 25 50

← PrevPage 180 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified