Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4401–4450 of 5548 papers

Title	Date	Tasks	Status
Reinforcement Learning Based Handwritten Digit Recognition with Two-State Q-Learning	Jun 28, 2020	BenchmarkingHandwritten Digit Recognition	—Unverified
A Survey of Predictive Maintenance Methods: An Analysis of Prognostics via Classification and Regression	Jun 25, 2025	BenchmarkingManagement	—Unverified
Unlocking the Potential: Benchmarking Large Language Models in Water Engineering and Research	Jul 22, 2024	Benchmarking	—Unverified
Reinforcement Learning with Graph Attention for Routing and Wavelength Assignment with Lightpath Reuse	Feb 20, 2025	BenchmarkingGraph Attention	—Unverified
Reinforcing Competitive Multi-Agents for Playing So Long Sucker	Nov 17, 2024	BenchmarkingDeep Reinforcement Learning	—Unverified
Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering	Mar 23, 2025	BenchmarkingChart Question Answering	—Unverified
Relative Afferent Pupillary Defect Screening through Transfer Learning	Aug 6, 2019	BenchmarkingObject Recognition	—Unverified
A Survey of Parameters Associated with the Quality of Benchmarks in NLP	Oct 14, 2022	Benchmarking	—Unverified
Reliable validation of Reinforcement Learning Benchmarks	Mar 2, 2022	BenchmarkingData Compression	—Unverified
Why every GBDT speed benchmark is wrong	Oct 24, 2018	Benchmarking	—Unverified
REMoH: A Reflective Evolution of Multi-objective Heuristics approach via Large Language Models	Jun 9, 2025	BenchmarkingDecision Making	—Unverified
A Survey of Model Compression and Acceleration for Deep Neural Networks	Oct 23, 2017	BenchmarkingKnowledge Distillation	—Unverified
A Survey of Methods for Addressing Class Imbalance in Deep-Learning Based Natural Language Processing	Oct 10, 2022	BenchmarkingData Augmentation	—Unverified
Removal of Ocular Artifacts in EEG Using Deep Learning	Sep 24, 2022	BenchmarkingDeep Learning	—Unverified
A Comparative Analysis of Principal Component Analysis (PCA) and Singular Value Decomposition (SVD) as Dimensionality Reduction Techniques	Jun 20, 2025	BenchmarkingDimensionality Reduction	—Unverified
Removing Multiple Hybrid Adverse Weather in Video via a Unified Model	Mar 8, 2025	BenchmarkingVideo Restoration	—Unverified
A survey of benchmarking frameworks for reinforcement learning	Nov 27, 2020	Benchmarkingreinforcement-learning	—Unverified
Rephrasing natural text data with different languages and quality levels for Large Language Model pre-training	Oct 28, 2024	BenchmarkingLanguage Modeling	—Unverified
REPLAB: A Reproducible Low-Cost Arm Benchmark Platform for Robotic Learning	May 17, 2019	BenchmarkingDeep Reinforcement Learning	—Unverified
A Collection of Challenging Optimization Problems in Science, Engineering and Economics	Apr 9, 2015	Benchmarking	—Unverified
A Cloud-based Machine Learning Pipeline for the Efficient Extraction of Insights from Customer Reviews	Jun 13, 2023	BenchmarkingKeyword Extraction	—Unverified
Why is the winner the best?	Mar 30, 2023	BenchmarkingMulti-Task Learning	—Unverified
A Study on Neuro-Symbolic Artificial Intelligence: Healthcare Perspectives	Mar 23, 2025	BenchmarkingCommon Sense Reasoning	—Unverified
Unreal Robotics Lab: A High-Fidelity Robotics Simulator with Advanced Physics and Rendering	Apr 19, 2025	BenchmarkingDataset Generation	—Unverified
Reproducible evaluation of classification methods in Alzheimer's disease: framework and application to MRI and PET data	Aug 20, 2018	BenchmarkingClassification	—Unverified
Repurposing Foundation Model for Generalizable Medical Time Series Classification	Oct 3, 2024	BenchmarkingDiagnostic	—Unverified
Reradiation and Scattering from a Reconfigurable Intelligent Surface: A General Macroscopic Model	Jul 27, 2021	Benchmarking	—Unverified
UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI	Dec 30, 2024	BenchmarkingReinforcement Learning (RL)	—Unverified
ResBench: Benchmarking LLM-Generated FPGA Designs with Resource Awareness	Mar 11, 2025	BenchmarkingCode Generation	—Unverified
ResearchArena: Benchmarking LLMs' Ability to Collect and Organize Information as Research Agents	Jun 13, 2024	BenchmarkingSurvey	—Unverified
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition	Mar 27, 2025	Benchmarkingscientific discovery	—Unverified
ResearchCodeAgent: An LLM Multi-Agent System for Automated Codification of Research Methodologies	Apr 28, 2025	BenchmarkingData Augmentation	—Unverified
ResearchCodeBench: Benchmarking LLMs on Implementing Novel Machine Learning Research Code	Jun 2, 2025	BenchmarkingCode Generation	—Unverified
Reservoir Computing with a Single Oscillating Gas Bubble: Emphasizing the Chaotic Regime	Mar 25, 2025	BenchmarkingLearning Theory	—Unverified
Resistive Neural Hardware Accelerators	Sep 8, 2021	Benchmarking	—Unverified
Resource-efficient Medical Image Analysis with Self-adapting Forward-Forward Networks	Jun 20, 2024	BenchmarkingMedical Image Analysis	—Unverified
UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images	May 6, 2024	Benchmarking	—Unverified
RESPONSE: Benchmarking the Ability of Language Models to Undertake Commonsense Reasoning in Crisis Situation	Mar 14, 2025	Benchmarking	—Unverified
Restoring Images Captured in Arbitrary Hybrid Adverse Weather Conditions in One Go	May 17, 2023	BenchmarkingImage Restoration	—Unverified
A Strong Sustainability Paradigm Based Analytical Hierarchy Process (SSP-AHP) Method to Evaluate Sustainable Healthcare Systems	May 13, 2023	Benchmarking	—Unverified
AstroMLab 2: AstroLLaMA-2-70B Model and Benchmarking Specialised LLMs for Astronomy	Sep 29, 2024	AstronomyBenchmarking	—Unverified
AstroMLab 1: Who Wins Astronomy Jeopardy!?	Jul 15, 2024	AstronomyBenchmarking	—Unverified
TaskEval: Assessing Difficulty of Code Generation Tasks for Large Language Models	Jul 30, 2024	BenchmarkingCode Completion	—Unverified
AstroLLaMA-Chat: Scaling AstroLLaMA with Conversational and Diverse Datasets	Jan 3, 2024	AstronomyBenchmarking	—Unverified
A Statistical Framework to Investigate the Optimality of Signal-Reconstruction Methods	Mar 18, 2022	Benchmarking	—Unverified
Rethinking Pareto Frontier for Performance Evaluation of Deep Neural Networks	Feb 18, 2022	BenchmarkingDeep Learning	—Unverified
Unsupervised Deep Epipolar Flow for Stationary or Dynamic Scenes	Apr 8, 2019	BenchmarkingDeep Learning	—Unverified
Unsupervised Feature Learning for Environmental Sound Classification Using Weighted Cycle-Consistent Generative Adversarial Network	Apr 8, 2019	BenchmarkingClassification	—Unverified
A Statistical Analysis for Per-Instance Evaluation of Stochastic Optimizers: How Many Repeats Are Enough?	Mar 20, 2025	Benchmarking	—Unverified
A Standardized Benchmark Set of Clustering Problem Instances for Comparing Black-Box Optimizers	May 14, 2025	BenchmarkingClustering	—Unverified

Show:10 25 50

← PrevPage 89 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified