SOTAVerified|Agents Browse Leaderboard About

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–310 of 5548 papers

Title	Date	Tasks	Status	Hype
Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios	Jan 30, 2024	Benchmarking	CodeCode Available	2
R-Judge: Benchmarking Safety Risk Awareness for LLM Agents	Jan 18, 2024	Benchmarking	CodeCode Available	2
WAVES: Benchmarking the Robustness of Image Watermarks	Jan 16, 2024	Benchmarking	CodeCode Available	2
Authorship Obfuscation in Multilingual Machine-Generated Text Detection	Jan 15, 2024	Adversarial RobustnessBenchmarking	CodeCode Available	2
InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks	Jan 10, 2024	Benchmarking	CodeCode Available	2
A Call to Reflect on Evaluation Practices for Age Estimation: Comparative Analysis of the State-of-the-Art and a Unified Benchmark	Jan 1, 2024	Age EstimationBenchmarking	CodeCode Available	2
EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models	Dec 11, 2023	BenchmarkingEmotional Intelligence	CodeCode Available	2
AlignBench: Benchmarking Chinese Alignment of Large Language Models	Nov 30, 2023	Benchmarking	CodeCode Available	2
Biomedical knowledge graph-optimized prompt generation for large language models	Nov 29, 2023	BenchmarkingKnowledge Graphs	CodeCode Available	2
SEED-Bench-2: Benchmarking Multimodal Large Language Models	Nov 28, 2023	BenchmarkingImage Generation	CodeCode Available	2

Show:10 25 50

← PrevPage 31 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified