SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4251–4260 of 5548 papers

Title	Date	Tasks	Status	Hype
Extensible Logging and Empirical Attainment Function for IOHexperimenter	Sep 28, 2021	Benchmarking	—Unverified	0
Context-guided Triple Matching for Multiple Choice Question Answering	Sep 27, 2021	BenchmarkingMultiple-choice	—Unverified	0
PASS: An ImageNet replacement for self-supervised pretraining without humans	Sep 27, 2021	BenchmarkingEthics	CodeCode Available	1
FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding	Sep 27, 2021	BenchmarkingNatural Language Understanding	CodeCode Available	1
Disentangled Feature Representation for Few-shot Image Classification	Sep 26, 2021	BenchmarkingClassification	CodeCode Available	1
MetaDrive: Composing Diverse Driving Scenarios for Generalizable Reinforcement Learning	Sep 26, 2021	BenchmarkingDecision Making	CodeCode Available	2
Curb Your Carbon Emissions: Benchmarking Carbon Emissions in Machine Translation	Sep 26, 2021	BenchmarkingMachine Translation	—Unverified	0
Don't be Contradicted with Anything! CI-ToD: Towards Benchmarking Consistency for Task-oriented Dialogue System	Sep 23, 2021	BenchmarkingResponse Generation	CodeCode Available	1
Benchmarking Lane-changing Decision-making for Deep Reinforcement Learning	Sep 22, 2021	Autonomous DrivingBenchmarking	—Unverified	0
Benchmarking Augmentation Methods for Learning Robust Navigation Agents: the Winning Entry of the 2021 iGibson Challenge	Sep 22, 2021	BenchmarkingData Augmentation	—Unverified	0

Show:10 25 50

← PrevPage 426 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified