Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3901–3950 of 5548 papers

Title	Date	Tasks	Status
SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization	Nov 1, 2023	Benchmarkingreinforcement-learning	—Unverified
SDFR: Synthetic Data for Face Recognition Competition	Apr 6, 2024	BenchmarkingFace Recognition	—Unverified
Uncertainty in GNN Learning Evaluations: The Importance of a Consistent Benchmark for Community Detection	May 10, 2023	BenchmarkingCommunity Detection	—Unverified
SE Arena: An Interactive Platform for Evaluating Foundation Models in Software Engineering	Feb 3, 2025	BenchmarkingCode Generation	—Unverified
SeaTurtleID2022: A long-span dataset for reliable sea turtle re-identification	Nov 9, 2023	BenchmarkingInstance Segmentation	—Unverified
SeaTurtleID2022: A long-span dataset for reliable sea turtle re-identification	Nov 18, 2022	BenchmarkingInstance Segmentation	—Unverified
SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity	Dec 30, 2024	BenchmarkingCode Generation	—Unverified
SecRepoBench: Benchmarking LLMs for Secure Code Generation in Real-World Repositories	Apr 29, 2025	BenchmarkingCode Generation	—Unverified
Secure Neuroimaging Analysis using Federated Learning with Homomorphic Encryption	Aug 7, 2021	BenchmarkingFederated Learning	—Unverified
Securing the Skies: A Comprehensive Survey on Anti-UAV Methods, Benchmarking, and Future Directions	Apr 16, 2025	BenchmarkingLanguage Modeling	—Unverified
Seeing in the Dark: Benchmarking Egocentric 3D Vision with the Oxford Day-and-Night Dataset	Jun 4, 2025	3D geometryBenchmarking	—Unverified
Seg2Reg: Differentiable 2D Segmentation to 1D Regression Rendering for 360 Room Layout Reconstruction	Nov 30, 2023	Benchmarkingregression	—Unverified
Segmenting Maxillofacial Structures in CBCT Volumes	Jan 1, 2025	AnatomyBenchmarking	—Unverified
Segment Together: A Versatile Paradigm for Semi-Supervised Medical Image Segmentation	Nov 20, 2023	BenchmarkingImage Segmentation	—Unverified
SegXAL: Explainable Active Learning for Semantic Segmentation in Driving Scene Scenarios	Aug 8, 2024	Active LearningBenchmarking	—Unverified
Selecting Differential Splicing Methods: Practical Considerations	Sep 9, 2024	Benchmarking	—Unverified
Selective Shot Learning for Code Explanation	Dec 17, 2024	Benchmarking	—Unverified
Self-supervised Benchmark Lottery on ImageNet: Do Marginal Improvements Translate to Improvements on Similar Datasets?	Jan 26, 2025	BenchmarkingSelf-Supervised Learning	—Unverified
Self-Supervised Speech Representation Learning: A Review	May 21, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Semantic Segmentation using Vision Transformers: A survey	May 5, 2023	Autonomous DrivingBenchmarking	—Unverified
SemanticST: Spatially Informed Semantic Graph Learning for Clustering, Integration, and Scalable Analysis of Spatial Transcriptomics	Jun 13, 2025	BenchmarkingContrastive Learning	—Unverified
Semi and Weakly Supervised Semantic Segmentation Using Generative Adversarial Network	Mar 28, 2017	BenchmarkingClustering	—Unverified
Semi-implicit Continuous Newton Method for Power Flow Analysis	Dec 5, 2023	BenchmarkingNumerical Integration	—Unverified
Semi-supervised learning via Feedforward-Designed Convolutional Neural Networks	Feb 6, 2019	BenchmarkingGeneral Classification	—Unverified
Semi-supervised Learning with Graphs: Covariance Based Superpixels For Hyperspectral Image Classification	Jan 14, 2019	BenchmarkingClassification	—Unverified
Semi Supervised Semantic Segmentation Using Generative Adversarial Network	Oct 1, 2017	BenchmarkingGeneral Classification	—Unverified
SEN12-WATER: A New Dataset for Hydrological Applications and its Benchmarking	Sep 25, 2024	BenchmarkingManagement	—Unverified
Sensor Data for Human Activity Recognition: Feature Representation and Benchmarking	May 15, 2020	Activity RecognitionBenchmarking	—Unverified
Sentence Smith: Formally Controllable Text Transformation and its Application to Evaluation of Text Embedding Models	Feb 20, 2025	BenchmarkingSentence	—Unverified
SentSpace: Large-Scale Benchmarking and Evaluation of Text using Cognitively Motivated Lexical, Syntactic, and Semantic Features	Jul 1, 2022	BenchmarkingSentence	—Unverified
Sequence-Level Leakage Risk of Training Data in Large Language Models	Dec 15, 2024	Benchmarking	—Unverified
SEvoBench : A C++ Framework For Evolutionary Single-Objective Optimization Benchmarking	May 23, 2025	BenchmarkingComputational Efficiency	—Unverified
SFTrack: A Robust Scale and Motion Adaptive Algorithm for Tracking Small and Fast Moving Objects	Oct 26, 2024	BenchmarkingMulti-Object Tracking	—Unverified
ShabbyPages: A Reproducible Document Denoising and Binarization Dataset	Mar 16, 2023	BenchmarkingBinarization	—Unverified
SHARP 2020: The 1st Shape Recovery from Partial Textured 3D Scans Challenge Results	Oct 26, 2020	Benchmarking	—Unverified
Sheared Backpropagation for Fine-tuning Foundation Models	Jan 1, 2024	Benchmarking	—Unverified
ShiftedBronzes: Benchmarking and Analysis of Domain Fine-Grained Classification in Open-World Settings	Dec 17, 2024	Benchmarking	—Unverified
Short-term origin-destination demand prediction in urban rail transit systems: A channel-wise attentive split-convolutional neural network method	Aug 8, 2020	BenchmarkingManagement	—Unverified
SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction	Sep 19, 2023	3D ReconstructionBenchmarking	—Unverified
Show Some Love to Your n-grams: A Bit of Progress and Stronger n-gram Language Modeling Baselines	Jun 1, 2019	BenchmarkingLanguage Modeling	—Unverified
SHS: Scorpion Hunting Strategy Swarm Algorithm	Jul 19, 2024	Benchmarking	—Unverified
Shuffle Vision Transformer: Lightweight, Fast and Efficient Recognition of Driver Facial Expression	Sep 5, 2024	BenchmarkingComputational Efficiency	—Unverified
Benchmarking Stroke Forecasting with Stroke-Level Badminton Dataset	Jun 27, 2023	Benchmarking	—Unverified
SIAM: Chiplet-based Scalable In-Memory Acceleration with Mesh for Deep Neural Networks	Aug 14, 2021	Benchmarking	—Unverified
SIM2E: Benchmarking the Group Equivariant Capability of Correspondence Matching Algorithms	Aug 21, 2022	Benchmarking	—Unverified
SimBank: from Simulation to Solution in Prescriptive Process Monitoring	Mar 28, 2025	Benchmarking	—Unverified
SIMCOPILOT: Evaluating Large Language Models for Copilot-Style Code Generation	May 21, 2025	BenchmarkingCode Generation	—Unverified
Similarity-Quantized Relative Difference Learning for Improved Molecular Activity Prediction	Jan 15, 2025	Activity PredictionBenchmarking	—Unverified
Simple Feedfoward Neural Networks are Almost All You Need for Time Series Forecasting	Mar 30, 2025	AllBenchmarking	—Unverified
Simulation-Based Sensitivity Analysis in Optimal Treatment Regimes and Causal Decomposition with Individualized Interventions	Jun 23, 2025	BenchmarkingSensitivity	—Unverified

Show:10 25 50

← PrevPage 79 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified