SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3161–3170 of 5548 papers

Title	Date	Tasks	Status	Hype
Benchmarking Educational Program Repair	May 8, 2024	BenchmarkingProgram Repair	CodeCode Available	0
Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking	May 7, 2024	BenchmarkingModel Selection	—Unverified	0
Refining Joint Text and Source Code Embeddings for Retrieval Task with Parameter-Efficient Fine-Tuning	May 7, 2024	BenchmarkingContrastive Learning	CodeCode Available	0
UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images	May 6, 2024	Benchmarking	—Unverified	0
Performance Evaluation of Real-Time Object Detection for Electric Scooters	May 5, 2024	Autonomous VehiclesBenchmarking	CodeCode Available	0
ATG: Benchmarking Automated Theorem Generation for Generative Language Models	May 5, 2024	Automated Theorem ProvingBenchmarking	—Unverified	0
Revisiting a Pain in the Neck: Semantic Phrase Processing Benchmark for Language Models	May 5, 2024	Benchmarking	CodeCode Available	0
Systematic Review: Anomaly Detection in Connected and Autonomous Vehicles	May 4, 2024	Anomaly DetectionArticles	—Unverified	0
PhilHumans: Benchmarking Machine Learning for Personal Health	May 4, 2024	Action AnticipationBenchmarking	—Unverified	0
A Normative Framework for Benchmarking Consumer Fairness in Large Language Model Recommender System	May 3, 2024	BenchmarkingCollaborative Filtering	—Unverified	0

Show:10 25 50

← PrevPage 317 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified