SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2621–2630 of 5548 papers

Title	Date	Tasks	Status	Hype
An Auditing Test To Detect Behavioral Shift in Language Models	Oct 25, 2024	BenchmarkingChange Detection	CodeCode Available	0
FairMT-Bench: Benchmarking Fairness for Multi-turn Dialogue in Conversational LLMs	Oct 25, 2024	BenchmarkingFairness	—Unverified	0
A Survey of Small Language Models	Oct 25, 2024	BenchmarkingModel Compression	—Unverified	0
OReole-FM: successes and challenges toward billion-parameter foundation models for high-resolution satellite imagery	Oct 25, 2024	Benchmarkingimage-classification	—Unverified	0
Benchmarking Graph Learning for Drug-Drug Interaction Prediction	Oct 24, 2024	BenchmarkingGraph Learning	—Unverified	0
Towards Better Open-Ended Text Generation: A Multicriteria Evaluation Framework	Oct 24, 2024	BenchmarkingDiversity	CodeCode Available	0
Conditional diffusions for amortized neural posterior estimation	Oct 24, 2024	Bayesian InferenceBenchmarking	CodeCode Available	0
From Blind Solvers to Logical Thinkers: Benchmarking LLMs' Logical Integrity on Faulty Mathematical Problems	Oct 24, 2024	BenchmarkingCommon Sense Reasoning	—Unverified	0
Benchmarking Foundation Models on Exceptional Cases: Dataset Creation and Validation	Oct 23, 2024	ArticlesBenchmarking	CodeCode Available	0
Benchmarking Floworks against OpenAI & Anthropic: A Novel Framework for Enhanced LLM Function Calling	Oct 23, 2024	Benchmarking	—Unverified	0

Show:10 25 50

← PrevPage 263 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified