SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3261–3270 of 5548 papers

Title	Date	Tasks	Status	Hype	Score
TIME: Temporal-sensitive Multi-dimensional Instruction Tuning and Benchmarking for Video-LLMs	Mar 13, 2025	BenchmarkingQuestion Answering	—Unverified	0	0
Time to Embrace Natural Language Processing (NLP)-based Digital Pathology: Benchmarking NLP- and Convolutional Neural Network-based Deep Learning Pipelines	Feb 21, 2023	Benchmarkingwhole slide images	—Unverified	0	0
Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning	Oct 3, 2024	BenchmarkingLanguage Modeling	—Unverified	0	0
Understanding Large Language Models in Your Pockets: Performance Study on COTS Mobile Devices	Oct 4, 2024	BenchmarkingLanguage Modeling	—Unverified	0	0
Benchmarking of LLM Detection: Comparing Two Competing Approaches	Jun 17, 2024	Benchmarking	—Unverified	0	0
Large Language Models are Null-Shot Learners	Jan 16, 2024	Arithmetic ReasoningBenchmarking	—Unverified	0	0
Large Language Models are Few-Shot Clinical Information Extractors	May 25, 2022	Benchmarkingcoreference-resolution	—Unverified	0	0
Large Language Models as Automated Aligners for benchmarking Vision-Language Models	Nov 24, 2023	BenchmarkingWorld Knowledge	—Unverified	0	0
Benchmarking of Lightweight Deep Learning Architectures for Skin Cancer Classification using ISIC 2017 Dataset	Oct 23, 2021	BenchmarkingCancer Classification	—Unverified	0	0
Adversarially Training for Audio Classifiers	Aug 26, 2020	Benchmarking	—Unverified	0	0

Show:10 25 50

← PrevPage 327 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified