SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2861–2870 of 5548 papers

Title	Date	Tasks	Status	Hype
WeQA: A Benchmark for Retrieval Augmented Generation in Wind Energy Domain	Aug 21, 2024	Answer GenerationBenchmarking	—Unverified	0
Advances in Preference-based Reinforcement Learning: A Review	Aug 21, 2024	Benchmarkingreinforcement-learning	—Unverified	0
SimBench: A Rule-Based Multi-Turn Interaction Benchmark for Evaluating an LLM's Ability to Generate Digital Twins	Aug 21, 2024	Benchmarking	CodeCode Available	0
RP1M: A Large-Scale Motion Dataset for Piano Playing with Bi-Manual Dexterous Robot Hands	Aug 20, 2024	BenchmarkingContact-rich Manipulation	—Unverified	0
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning	Aug 20, 2024	BenchmarkingLanguage Modelling	—Unverified	0
UKAN: Unbound Kolmogorov-Arnold Network Accompanied with Accelerated Library	Aug 20, 2024	BenchmarkingComputational Efficiency	—Unverified	0
ISLES'24: Improving final infarct prediction in ischemic stroke using multimodal imaging and clinical data	Aug 20, 2024	Benchmarking	—Unverified	0
Benchmarking Large Language Models for Math Reasoning Tasks	Aug 20, 2024	BenchmarkingIn-Context Learning	CodeCode Available	0
Large Language Models for Classical Chinese Poetry Translation: Benchmarking, Evaluating, and Improving	Aug 19, 2024	BenchmarkingMachine Translation	—Unverified	0
Benchmarking quantum machine learning kernel training for classification tasks	Aug 17, 2024	BenchmarkingQuantum Machine Learning	CodeCode Available	0

Show:10 25 50

← PrevPage 287 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified