Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2751–2800 of 5548 papers

Title	Date	Tasks	Status
Context-guided Triple Matching for Multiple Choice Question Answering	Jan 16, 2022	BenchmarkingMultiple-choice	—Unverified
Contextual Metric Meta-Evaluation by Measuring Local Metric Accuracy	Mar 25, 2025	Benchmarkingspeech-recognition	—Unverified
Exploring the Practicality of Generative Retrieval on Dynamic Corpora	May 27, 2023	BenchmarkingInformation Retrieval	—Unverified
Continuous Function Structured in Multilayer Perceptron for Global Optimization	Mar 7, 2023	Benchmarkingglobal-optimization	—Unverified
Continuous-Time Gaussian Process Motion-Compensation for Event-vision Pattern Tracking with Distance Fields	Mar 5, 2023	BenchmarkingMotion Compensation	—Unverified
Continuous U-Net: Faster, Greater and Noiseless	Feb 1, 2023	BenchmarkingDecoder	—Unverified
Contrastive Learning-Based Spectral Knowledge Distillation for Multi-Modality and Missing Modality Scenarios in Semantic Segmentation	Dec 4, 2023	BenchmarkingContrastive Learning	—Unverified
Contribution à l'Optimisation d'un Comportement Collectif pour un Groupe de Robots Autonomes	Jun 10, 2023	BenchmarkingDiversity	—Unverified
Contributions of the Petabyte Scale Sequence Search Codeathon toward efforts to scale sequence-based searches on SRA	May 9, 2025	Benchmarkingscientific discovery	—Unverified
ConvBench: A Comprehensive Benchmark for 2D Convolution Primitive Evaluation	Jul 15, 2024	Benchmarking	—Unverified
ConvCodeWorld: Benchmarking Conversational Code Generation in Reproducible Feedback Environments	Feb 27, 2025	BenchmarkingCode Generation	—Unverified
Convolutional and Deep Learning based techniques for Time Series Ordinal Classification	Jun 16, 2023	BenchmarkingOrdinal Classification	—Unverified
COPA: Comparing the Incomparable to Explore the Pareto Front	Mar 18, 2025	AutoMLBenchmarking	—Unverified
CORE: A Knowledge Graph Entity Type Prediction Method via Complex Space Regression and Embedding	Dec 19, 2021	BenchmarkingPrediction	—Unverified
CORE: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks	Jul 3, 2025	BenchmarkingCode Generation	—Unverified
Cornac: A Comparative Framework for Multimodal Recommender Systems	May 8, 2020	BenchmarkingRecommendation Systems	—Unverified
COSET: A Benchmark for Evaluating Neural Program Embeddings	May 27, 2019	BenchmarkingGraph Neural Network	—Unverified
CoSy: Evaluating Textual Explanations of Neurons	May 30, 2024	Benchmarking	—Unverified
Countering Backdoor Attacks in Image Recognition: A Survey and Evaluation of Mitigation Strategies	Nov 17, 2024	Benchmarking	—Unverified
COUNTS: Benchmarking Object Detectors and Multimodal Large Language Models under Distribution Shifts	Apr 14, 2025	BenchmarkingObject	—Unverified
Coupling volume-excluding compartment-based models of diffusion at different scales: Voronoi and pseudo-compartment approaches	May 24, 2016	BenchmarkingBlocking	—Unverified
Covariance Matrix Adaptation Evolution Strategy Assisted by Principal Component Analysis	May 8, 2021	BenchmarkingDimensionality Reduction	—Unverified
Creating a Data Collection for Evaluating Rich Speech Retrieval	May 1, 2012	BenchmarkingRetrieval	—Unverified
CRF-based Single-stage Acoustic Modeling with CTC Topology	Apr 16, 2019	BenchmarkingSpeech Recognition	—Unverified
CroCoDL: Cross-device Collaborative Dataset for Localization	Jan 1, 2025	BenchmarkingPose Estimation	—Unverified
CrossCheckGPT: Universal Hallucination Ranking for Multimodal Foundation Models	May 22, 2024	BenchmarkingHallucination	—Unverified
CrossCodeBench: Benchmarking Cross-Task Generalization of Source Code Models	Feb 8, 2023	BenchmarkingFew-Shot Learning	—Unverified
Cross-functional transferability in universal machine learning interatomic potentials	Apr 7, 2025	BenchmarkingTransfer Learning	—Unverified
crossMoDA Challenge: Evolution of Cross-Modality Domain Adaptation Techniques for Vestibular Schwannoma and Cochlea Segmentation from 2021 to 2023	Jun 13, 2025	BenchmarkingDomain Adaptation	—Unverified
Cross-Model Image Annotation Platform with Active Learning	Aug 6, 2020	Active LearningBenchmarking	—Unverified
Cross-replication Reliability -- An Empirical Approach to Interpreting Inter-rater Reliability	Jun 11, 2021	Benchmarking	—Unverified
Cross-replication Reliability - An Empirical Approach to Interpreting Inter-rater Reliability	Aug 1, 2021	Benchmarking	—Unverified
Cross-subject Brain Functional Connectivity Analysis for Multi-task Cognitive State Evaluation	Aug 27, 2024	BenchmarkingDecision Making	—Unverified
Cross-Subject Deep Transfer Models for Evoked Potentials in Brain-Computer Interface	Jan 29, 2023	BenchmarkingBrain Computer Interface	—Unverified
CrowdDriven: A New Challenging Dataset for Outdoor Visual Localization	Sep 9, 2021	BenchmarkingSelf-Driving Cars	—Unverified
CRS Arena: Crowdsourced Benchmarking of Conversational Recommender Systems	Dec 13, 2024	BenchmarkingRecommendation Systems	—Unverified
CSPO: Cross-Market Synergistic Stock Price Movement Forecasting with Pseudo-volatility Optimization	Mar 26, 2025	Benchmarking	—Unverified
CSR-Bench: Benchmarking LLM Agents in Deployment of Computer Science Research Repositories	Feb 10, 2025	Benchmarking	—Unverified
CT-Eval: Benchmarking Chinese Text-to-Table Performance in Large Language Models	May 20, 2024	BenchmarkingDiversity	—Unverified
CUB: Benchmarking Context Utilisation Techniques for Language Models	May 22, 2025	BenchmarkingFact Checking	—Unverified
CubeSat-Enabled Free-Space Optics: Joint Data Communication and Fine Beam Tracking	Jun 13, 2024	Benchmarking	—Unverified
CULEMO: Cultural Lenses on Emotion -- Benchmarking LLMs for Cross-Cultural Emotion Understanding	Mar 12, 2025	BenchmarkingEmotion Recognition	—Unverified
Curb Your Carbon Emissions: Benchmarking Carbon Emissions in Machine Translation	Sep 26, 2021	BenchmarkingMachine Translation	—Unverified
CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models	May 19, 2025	BenchmarkingRed Teaming	—Unverified
Curriculum in Gradient-Based Meta-Reinforcement Learning	Feb 19, 2020	BenchmarkingMeta-Learning	—Unverified
Curse of Slicing: Why Sliced Mutual Information is a Deceptive Measure of Statistical Dependence	Jun 4, 2025	Benchmarking	—Unverified
CXPMRG-Bench: Pre-training and Benchmarking for X-ray Medical Report Generation on CheXpert Plus Dataset	Oct 1, 2024	BenchmarkingContrastive Learning	—Unverified
CzechLynx: A Dataset for Individual Identification and Pose Estimation of the Eurasian Lynx	Jun 5, 2025	2D Pose EstimationBenchmarking	—Unverified
DACOS-A Manually Annotated Dataset of Code Smells	Mar 15, 2023	Benchmarking	—Unverified
DACSA: A large-scale Dataset for Automatic summarization of Catalan and Spanish newspaper Articles	Jul 1, 2022	Abstractive Text SummarizationArticles	—Unverified

Show:10 25 50

← PrevPage 56 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified