Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2776–2800 of 5548 papers

Title	Date	Tasks	Status
CrossCheckGPT: Universal Hallucination Ranking for Multimodal Foundation Models	May 22, 2024	BenchmarkingHallucination	—Unverified
CrossCodeBench: Benchmarking Cross-Task Generalization of Source Code Models	Feb 8, 2023	BenchmarkingFew-Shot Learning	—Unverified
Cross-functional transferability in universal machine learning interatomic potentials	Apr 7, 2025	BenchmarkingTransfer Learning	—Unverified
crossMoDA Challenge: Evolution of Cross-Modality Domain Adaptation Techniques for Vestibular Schwannoma and Cochlea Segmentation from 2021 to 2023	Jun 13, 2025	BenchmarkingDomain Adaptation	—Unverified
Cross-Model Image Annotation Platform with Active Learning	Aug 6, 2020	Active LearningBenchmarking	—Unverified
Cross-replication Reliability -- An Empirical Approach to Interpreting Inter-rater Reliability	Jun 11, 2021	Benchmarking	—Unverified
Cross-replication Reliability - An Empirical Approach to Interpreting Inter-rater Reliability	Aug 1, 2021	Benchmarking	—Unverified
Cross-subject Brain Functional Connectivity Analysis for Multi-task Cognitive State Evaluation	Aug 27, 2024	BenchmarkingDecision Making	—Unverified
Cross-Subject Deep Transfer Models for Evoked Potentials in Brain-Computer Interface	Jan 29, 2023	BenchmarkingBrain Computer Interface	—Unverified
CrowdDriven: A New Challenging Dataset for Outdoor Visual Localization	Sep 9, 2021	BenchmarkingSelf-Driving Cars	—Unverified
CRS Arena: Crowdsourced Benchmarking of Conversational Recommender Systems	Dec 13, 2024	BenchmarkingRecommendation Systems	—Unverified
CSPO: Cross-Market Synergistic Stock Price Movement Forecasting with Pseudo-volatility Optimization	Mar 26, 2025	Benchmarking	—Unverified
CSR-Bench: Benchmarking LLM Agents in Deployment of Computer Science Research Repositories	Feb 10, 2025	Benchmarking	—Unverified
CT-Eval: Benchmarking Chinese Text-to-Table Performance in Large Language Models	May 20, 2024	BenchmarkingDiversity	—Unverified
CUB: Benchmarking Context Utilisation Techniques for Language Models	May 22, 2025	BenchmarkingFact Checking	—Unverified
CubeSat-Enabled Free-Space Optics: Joint Data Communication and Fine Beam Tracking	Jun 13, 2024	Benchmarking	—Unverified
CULEMO: Cultural Lenses on Emotion -- Benchmarking LLMs for Cross-Cultural Emotion Understanding	Mar 12, 2025	BenchmarkingEmotion Recognition	—Unverified
Curb Your Carbon Emissions: Benchmarking Carbon Emissions in Machine Translation	Sep 26, 2021	BenchmarkingMachine Translation	—Unverified
CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models	May 19, 2025	BenchmarkingRed Teaming	—Unverified
Curriculum in Gradient-Based Meta-Reinforcement Learning	Feb 19, 2020	BenchmarkingMeta-Learning	—Unverified
Curse of Slicing: Why Sliced Mutual Information is a Deceptive Measure of Statistical Dependence	Jun 4, 2025	Benchmarking	—Unverified
CXPMRG-Bench: Pre-training and Benchmarking for X-ray Medical Report Generation on CheXpert Plus Dataset	Oct 1, 2024	BenchmarkingContrastive Learning	—Unverified
CzechLynx: A Dataset for Individual Identification and Pose Estimation of the Eurasian Lynx	Jun 5, 2025	2D Pose EstimationBenchmarking	—Unverified
DACOS-A Manually Annotated Dataset of Code Smells	Mar 15, 2023	Benchmarking	—Unverified
DACSA: A large-scale Dataset for Automatic summarization of Catalan and Spanish newspaper Articles	Jul 1, 2022	Abstractive Text SummarizationArticles	—Unverified

Show:10 25 50

← PrevPage 112 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified