SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2191–2200 of 5548 papers

Title	Date	Tasks	Status	Hype
OpenFly: A Comprehensive Platform for Aerial Vision-Language Navigation	Feb 25, 2025	BenchmarkingSemantic Segmentation	—Unverified	0
MULTITAT: Benchmarking Multilingual Table-and-Text Question Answering	Feb 24, 2025	BenchmarkingQuestion Answering	CodeCode Available	0
SynthRAD2025 Grand Challenge dataset: generating synthetic CTs for radiotherapy	Feb 24, 2025	BenchmarkingImage Generation	—Unverified	0
Enhancing Image Matting in Real-World Scenes with Mask-Guided Iterative Refinement	Feb 24, 2025	Benchmarkingfeature selection	—Unverified	0
Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties	Feb 24, 2025	Benchmarking	CodeCode Available	0
Overconfident Oracles: Limitations of In Silico Sequence Design Benchmarking	Feb 24, 2025	Benchmarking	—Unverified	0
On Neural Inertial Classification Networks for Pedestrian Activity Recognition	Feb 23, 2025	Activity RecognitionBenchmarking	—Unverified	0
An Analyst-Inspector Framework for Evaluating Reproducibility of LLMs in Data Science	Feb 23, 2025	BenchmarkingCode Generation	CodeCode Available	0
VidLBEval: Benchmarking and Mitigating Language Bias in Video-Involved LVLMs	Feb 23, 2025	Benchmarking	—Unverified	0
VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models	Feb 23, 2025	BenchmarkingSpatial Reasoning	CodeCode Available	0

Show:10 25 50

← PrevPage 220 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified