SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1711–1720 of 5548 papers

Title	Date	Tasks	Status	Hype
A Unified Solution to Video Fusion: From Multi-Frame Learning to Benchmarking	May 26, 2025	BenchmarkingOptical Flow Estimation	—Unverified	0
TDVE-Assessor: Benchmarking and Evaluating the Quality of Text-Driven Video Editing with LMMs	May 26, 2025	BenchmarkingLarge Language Model	—Unverified	0
AgentRecBench: Benchmarking LLM Agent-based Personalized Recommender Systems	May 26, 2025	BenchmarkingRecommendation Systems	—Unverified	0
FinLoRA: Benchmarking LoRA Methods for Fine-Tuning LLMs on Financial Datasets	May 26, 2025	BenchmarkingGPU	—Unverified	0
Benchmarking Large Multimodal Models for Ophthalmic Visual Question Answering with OphthalWeChat	May 26, 2025	BenchmarkingQuestion Answering	—Unverified	0
SpokenNativQA: Multilingual Everyday Spoken Queries for LLMs	May 25, 2025	BenchmarkingDiversity	—Unverified	0
Retrieval-Augmented Generation for Service Discovery: Chunking Strategies and Benchmarking	May 25, 2025	BenchmarkingChunking	—Unverified	0
EnvSDD: Benchmarking Environmental Sound Deepfake Detection	May 25, 2025	Audio Deepfake DetectionAudio Generation	—Unverified	0
DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research	May 25, 2025	BenchmarkingInformation Retrieval	—Unverified	0
AssistedDS: Benchmarking How External Domain Knowledge Assists LLMs in Automated Data Science	May 25, 2025	BenchmarkingFeature Engineering	—Unverified	0

Show:10 25 50

← PrevPage 172 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified