SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2371–2380 of 5548 papers

Title	Date	Tasks	Status	Hype
Unifying Large Language Model and Deep Reinforcement Learning for Human-in-Loop Interactive Socially-aware Navigation	Mar 22, 2024	BenchmarkingDeep Reinforcement Learning	—Unverified	0
Broadening the Scope of Neural Network Potentials through Direct Inclusion of Additional Molecular Attributes	Mar 22, 2024	Benchmarking	—Unverified	0
Subjective Quality Assessment of Compressed Tone-Mapped High Dynamic Range Videos	Mar 22, 2024	BenchmarkingTone Mapping	—Unverified	0
Can 3D Vision-Language Models Truly Understand Natural Language?	Mar 21, 2024	BenchmarkingDiversity	CodeCode Available	1
Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations	Mar 21, 2024	BenchmarkingMemorization	CodeCode Available	1
RoDLA: Benchmarking the Robustness of Document Layout Analysis Models	Mar 21, 2024	BenchmarkingDocument Layout Analysis	CodeCode Available	1
ChatGPT Alternative Solutions: Large Language Models Survey	Mar 21, 2024	BenchmarkingChatbot	—Unverified	0
DomainLab: A modular Python package for domain generalization in deep learning	Mar 21, 2024	BenchmarkingDomain Generalization	CodeCode Available	1
Practical End-to-End Optical Music Recognition for Pianoform Music	Mar 20, 2024	Benchmarking	CodeCode Available	1
MARTA: a model for the automatic phonemic grouping of the parkinsonian speech	Mar 19, 2024	BenchmarkingClassification	CodeCode Available	0

Show:10 25 50

← PrevPage 238 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified