SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2711–2720 of 5548 papers

Title	Date	Tasks	Status	Hype
IoT-LLM: Enhancing Real-World IoT Task Reasoning with Large Language Models	Oct 3, 2024	BenchmarkingIn-Context Learning	—Unverified	0
MANTRA: The Manifold Triangulations Assemblage	Oct 3, 2024	Benchmarking	CodeCode Available	0
Repurposing Foundation Model for Generalizable Medical Time Series Classification	Oct 3, 2024	BenchmarkingDiagnostic	—Unverified	0
Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning	Oct 3, 2024	BenchmarkingLanguage Modeling	—Unverified	0
Deep learning for action spotting in association football videos	Oct 2, 2024	Action SpottingBenchmarking	—Unverified	0
ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving	Oct 2, 2024	BenchmarkingDocument Summarization	—Unverified	0
CALF: Benchmarking Evaluation of LFQA Using Chinese Examinations	Oct 2, 2024	BenchmarkingLong Form Question Answering	—Unverified	0
The Labyrinth of Links: Navigating the Associative Maze of Multi-modal LLMs	Oct 2, 2024	BenchmarkingHallucination	—Unverified	0
Emo3D: Metric and Benchmarking Dataset for 3D Facial Expression Generation from Emotion Description	Oct 2, 2024	BenchmarkingFacial expression generation	—Unverified	0
A Real Benchmark Swell Noise Dataset for Performing Seismic Data Denoising via Deep Learning	Oct 2, 2024	BenchmarkingDenoising	—Unverified	0

Show:10 25 50

← PrevPage 272 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified