SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2721–2730 of 5548 papers

Title	Date	Tasks	Status	Hype
SEED-Bench-2: Benchmarking Multimodal Large Language Models	Nov 28, 2023	BenchmarkingImage Generation	CodeCode Available	2
UniIR: Training and Benchmarking Universal Multimodal Information Retrievers	Nov 28, 2023	BenchmarkingInformation Retrieval	—Unverified	0
Riemannian Self-Attention Mechanism for SPD Networks	Nov 28, 2023	BenchmarkingRiemannian optimization	—Unverified	0
FakeWatch ElectionShield: A Benchmarking Framework to Detect Fake News for Credible US Elections	Nov 27, 2023	ArticlesBenchmarking	—Unverified	0
Comprehensive Benchmarking of Entropy and Margin Based Scoring Metrics for Data Selection	Nov 27, 2023	Active LearningBenchmarking	—Unverified	0
Lightly Weighted Automatic Audio Parameter Extraction for the Quality Assessment of Consensus Auditory-Perceptual Evaluation of Voice	Nov 27, 2023	Benchmarking	—Unverified	0
Experimental Analysis of Large-scale Learnable Vector Storage Compression	Nov 27, 2023	Benchmarking	CodeCode Available	0
Syn3DWound: A Synthetic Dataset for 3D Wound Bed Analysis	Nov 27, 2023	BenchmarkingDiagnostic	—Unverified	0
Benchmarking Large Language Model Volatility	Nov 26, 2023	BenchmarkingDecision Making	—Unverified	0
UHGEval: Benchmarking the Hallucination of Chinese Large Language Models via Unconstrained Generation	Nov 26, 2023	BenchmarkingHallucination	CodeCode Available	1

Show:10 25 50

← PrevPage 273 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified