SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3551–3560 of 5548 papers

Title	Date	Tasks	Status	Hype	Score
MEETING DELEGATE: Benchmarking LLMs on Attending Meetings on Our Behalf	Feb 5, 2025	BenchmarkingScheduling	—Unverified	0	0
Towards Explainability and Fairness in Swiss Judgement Prediction: Benchmarking on a Multilingual Dataset	Feb 26, 2024	BenchmarkingCross-Lingual Transfer	—Unverified	0	0
MegaCOIN: Enhancing Medium-Grained Color Perception for Vision-Language Models	Dec 5, 2024	BenchmarkingDomain Generalization	—Unverified	0	0
Benchmarking Large Language Model Capabilities for Conditional Generation	Jun 29, 2023	BenchmarkingFew-Shot Learning	—Unverified	0	0
Benchmarking Language Models for Cyberbullying Identification and Classification from Social-media Texts	Jun 1, 2022	BenchmarkingBinary Classification	—Unverified	0	0
MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks	Nov 13, 2023	Benchmarking	—Unverified	0	0
MELABenchv1: Benchmarking Large Language Models against Smaller Fine-Tuned Models for Low-Resource Maltese NLP	Jun 4, 2025	BenchmarkingLanguage Modelling	—Unverified	0	0
Benchmarking Lane-changing Decision-making for Deep Reinforcement Learning	Sep 22, 2021	Autonomous DrivingBenchmarking	—Unverified	0	0
MeltpoolNet: Melt pool Characteristic Prediction in Metal Additive Manufacturing Using Machine Learning	Jan 26, 2022	ArticlesBenchmarking	—Unverified	0	0
Benchmarking Knowledge-Enhanced Commonsense Question Answering via Knowledge-to-Text Transformation	Jan 4, 2021	BenchmarkingQuestion Answering	—Unverified	0	0

Show:10 25 50

← PrevPage 356 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified