SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1931–1940 of 5548 papers

Title	Date	Tasks	Status	Hype
MAYA: Addressing Inconsistencies in Generative Password Guessing through a Unified Benchmark	Apr 23, 2025	Benchmarking	CodeCode Available	0
Fluorescence Reference Target Quantitative Analysis Library	Apr 22, 2025	Benchmarking	CodeCode Available	0
CLIRudit: Cross-Lingual Information Retrieval of Scientific Documents	Apr 22, 2025	BenchmarkingCross-Lingual Information Retrieval	—Unverified	0
Enhancing TCR-Peptide Interaction Prediction with Pretrained Language Models and Molecular Representations	Apr 22, 2025	BenchmarkingFew-Shot Learning	—Unverified	0
A Large-scale Class-level Benchmark Dataset for Code Generation with LLMs	Apr 22, 2025	BenchmarkingClass-level Code Generation	—Unverified	0
Towards responsible AI for education: Hybrid human-AI to confront the Elephant in the room	Apr 22, 2025	BenchmarkingFairness	—Unverified	0
Benchmarking machine learning models for predicting aerofoil performance	Apr 22, 2025	Benchmarking	—Unverified	0
Benchmarking LLM for Code Smells Detection: OpenAI GPT-4.0 vs DeepSeek-V3	Apr 22, 2025	BenchmarkingLanguage Modeling	—Unverified	0
Establishing Reliability Metrics for Reward Models in Large Language Models	Apr 21, 2025	Benchmarking	—Unverified	0
Audio-Visual Class-Incremental Learning for Fish Feeding intensity Assessment in Aquaculture	Apr 21, 2025	Benchmarkingclass-incremental learning	—Unverified	0

Show:10 25 50

← PrevPage 194 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified