SOTAVerified|Agents Browse Leaderboard About Blog

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4391–4400 of 5548 papers

Title	Date	Tasks	Status	Hype
Large Language Models are Few-Shot Clinical Information Extractors	May 25, 2022	Benchmarkingcoreference-resolution	—Unverified	0
Large Language Models as Automated Aligners for benchmarking Vision-Language Models	Nov 24, 2023	BenchmarkingWorld Knowledge	—Unverified	0
Large Language Models Have Intrinsic Meta-Cognition, but Need a Good Lens	Jun 10, 2025	BenchmarkingMathematical Reasoning	—Unverified	0
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level	Nov 5, 2024	Bayesian OptimisationBenchmarking	—Unverified	0
Large Malaysian Language Model Based on Mistral for Enhanced Local Language Understanding	Jan 24, 2024	BenchmarkingLanguage Modeling	—Unverified	0
Large Physics Models: Towards a collaborative approach with Large Language Models and Foundation Models	Jan 9, 2025	BenchmarkingPhilosophical Reflection	—Unverified	0
Large-scale Benchmarking of Metaphor-based Optimization Heuristics	Feb 15, 2024	BenchmarkingExperimental Design	—Unverified	0
Large-Scale Quantum Separability Through a Reproducible Machine Learning Lens	Jun 15, 2023	Benchmarking	—Unverified	0
Latency-aware Road Anomaly Segmentation in Videos: A Photorealistic Dataset and New Metrics	Jan 10, 2024	Anomaly SegmentationAutonomous Driving	—Unverified	0
Latent Variable Models for Visual Question Answering	Jan 16, 2021	BenchmarkingQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 440 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified