SOTAVerified|Agents Browse Leaderboard About

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1331–1340 of 5548 papers

Title	Date	Tasks	Status	Hype
Data Generating Process to Evaluate Causal Discovery Techniques for Time Series Data	Apr 16, 2021	BenchmarkingCausal Discovery	CodeCode Available	1
Towards Standardising Reinforcement Learning Approaches for Production Scheduling Problems	Apr 16, 2021	Benchmarkingreinforcement-learning	CodeCode Available	1
Is Multi-Hop Reasoning Really Explainable? Towards Benchmarking Reasoning Interpretability	Apr 14, 2021	BenchmarkingLink Prediction	CodeCode Available	1
Safety-enhanced UAV Path Planning with Spherical Vector-based Particle Swarm Optimization	Apr 13, 2021	BenchmarkingMetaheuristic Optimization	CodeCode Available	1
StylePTB: A Compositional Benchmark for Fine-grained Controllable Text Style Transfer	Apr 12, 2021	BenchmarkingSentence	CodeCode Available	1
Robust Semantic Interpretability: Revisiting Concept Activation Vectors	Apr 6, 2021	Benchmarkingcounterfactual	CodeCode Available	1
CBench: Towards Better Evaluation of Question Answering Over Knowledge Graphs	Apr 5, 2021	BenchmarkingKnowledge Graphs	CodeCode Available	1
Remote Sensing Image Classification with the SEN12MS Dataset	Apr 1, 2021	BenchmarkingClassification	CodeCode Available	1
Simultaneous Navigation and Construction Benchmarking Environments	Mar 31, 2021	BenchmarkingDeep Reinforcement Learning	CodeCode Available	1
Benchmarks for Deep Off-Policy Evaluation	Mar 30, 2021	Benchmarkingcontinuous-control	CodeCode Available	1

Show:10 25 50

← PrevPage 134 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified