SOTAVerified|Agents Browse Leaderboard About

Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 741–750 of 5548 papers

Title	Date	Tasks	Status	Hype
Efficient but Vulnerable: Benchmarking and Defending LLM Batch Prompting Attack	Mar 18, 2025	8kBenchmarking	—Unverified	0
COPA: Comparing the Incomparable to Explore the Pareto Front	Mar 18, 2025	AutoMLBenchmarking	—Unverified	0
ConSCompF: Consistency-focused Similarity Comparison Framework for Generative Large Language Models	Mar 18, 2025	BenchmarkingChatbot	—Unverified	0
JuDGE: Benchmarking Judgment Document Generation for Chinese Legal System	Mar 18, 2025	BenchmarkingIn-Context Learning	CodeCode Available	1
Benchmarking Failures in Tool-Augmented Language Models	Mar 18, 2025	BenchmarkingText Generation	CodeCode Available	0
HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard	Mar 18, 2025	BenchmarkingHuman Dynamics	—Unverified	0
Stable Virtual Camera: Generative View Synthesis with Diffusion Models	Mar 18, 2025	Benchmarking	—Unverified	0
Benchmarking community drug response prediction models: datasets, models, tools, and metrics for cross-dataset generalization analysis	Mar 18, 2025	BenchmarkingDrug Response Prediction	CodeCode Available	0
Organ-aware Multi-scale Medical Image Segmentation Using Text Prompt Engineering	Mar 18, 2025	BenchmarkingDescriptive	—Unverified	0
CoSpace: Benchmarking Continuous Space Perception Ability for Vision-Language Models	Mar 18, 2025	BenchmarkingSpatial Reasoning	CodeCode Available	0

Show:10 25 50

← PrevPage 75 of 555Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified