SOTAVerified|Agents Browse Leaderboard About

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 901–910 of 5548 papers

Title	Date	Tasks	Status	Hype
Benchmarking the Abilities of Large Language Models for RDF Knowledge Graph Creation and Comprehension: How Well Do LLMs Speak Turtle?	Sep 29, 2023	BenchmarkingKnowledge Graph Completion	CodeCode Available	1
MuSe-GNN: Learning Unified Gene Representation From Multimodal Biological Graph Data	Sep 29, 2023	BenchmarkingContrastive Learning	CodeCode Available	1
FedAIoT: A Federated Learning Benchmark for Artificial Intelligence of Things	Sep 29, 2023	BenchmarkingFederated Learning	CodeCode Available	1
G4SATBench: Benchmarking and Advancing SAT Solving with Graph Neural Networks	Sep 29, 2023	Benchmarking	CodeCode Available	1
LagrangeBench: A Lagrangian Fluid Mechanics Benchmarking Suite	Sep 28, 2023	Benchmarking	CodeCode Available	1
The Trickle-down Impact of Reward (In-)consistency on RLHF	Sep 28, 2023	Benchmarking	CodeCode Available	1
Revisiting Neural Program Smoothing for Fuzzing	Sep 28, 2023	BenchmarkingCPU	CodeCode Available	1
FORB: A Flat Object Retrieval Benchmark for Universal Image Embedding	Sep 28, 2023	BenchmarkingImage Retrieval	CodeCode Available	1
Unified Long-Term Time-Series Forecasting Benchmark	Sep 27, 2023	BenchmarkingTime Series	CodeCode Available	1
NLPBench: Evaluating Large Language Models on Solving NLP Problems	Sep 27, 2023	BenchmarkingMath	CodeCode Available	1

Show:10 25 50

← PrevPage 91 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified