SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2811–2820 of 5548 papers

Title	Date	Tasks	Status	Hype
NeIn: Telling What You Don't Want	Sep 9, 2024	BenchmarkingNegation	—Unverified	0
DetoxBench: Benchmarking Large Language Models for Multitask Fraud & Abuse Detection	Sep 9, 2024	Abuse DetectionAbusive Language	—Unverified	0
A Framework for Evaluating PM2.5 Forecasts from the Perspective of Individual Decision Making	Sep 9, 2024	BenchmarkingDecision Making	CodeCode Available	0
Quantum Kernel Methods under Scrutiny: A Benchmarking Study	Sep 6, 2024	BenchmarkingQuantum Machine Learning	—Unverified	0
Absolute Ranking: An Essential Normalization for Benchmarking Optimization Algorithms	Sep 6, 2024	Bayesian InferenceBenchmarking	—Unverified	0
Benchmarking Estimators for Natural Experiments: A Novel Dataset and a Doubly Robust Algorithm	Sep 6, 2024	Benchmarkingregression	—Unverified	0
Question-Answering Dense Video Events	Sep 6, 2024	BenchmarkingQuestion Answering	CodeCode Available	0
Shuffle Vision Transformer: Lightweight, Fast and Efficient Recognition of Driver Facial Expression	Sep 5, 2024	BenchmarkingComputational Efficiency	—Unverified	0
LLM Detectors Still Fall Short of Real World: Case of LLM-Generated Short News-Like Posts	Sep 5, 2024	Benchmarking	CodeCode Available	0
InfraLib: Enabling Reinforcement Learning and Decision-Making for Large-Scale Infrastructure Management	Sep 5, 2024	BenchmarkingComputational Efficiency	—Unverified	0

Show:10 25 50

← PrevPage 282 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified