Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3851–3900 of 5548 papers

Title	Date	Tasks	Status
RISEdb: a Novel Indoor Localization Dataset	Jan 10, 2021	BenchmarkingIndoor Localization	—Unverified
Risk Aware Benchmarking of Large Language Models	Oct 11, 2023	BenchmarkingEconometrics	—Unverified
Risk-Neutral Generative Networks	May 28, 2024	Benchmarking	—Unverified
RL2Grid: Benchmarking Reinforcement Learning in Power Grid Operations	Mar 29, 2025	Benchmarkingreinforcement-learning	—Unverified
RL-Based Method for Benchmarking the Adversarial Resilience and Robustness of Deep Reinforcement Learning Policies	Jun 3, 2019	BenchmarkingDeep Reinforcement Learning	—Unverified
RNAmountAlign: efficient software for local, global, semiglobal pairwise and multiple RNA sequence/structure alignment	Aug 10, 2018	Benchmarking	—Unverified
A Comprehensive Guide to CAN IDS Data & Introduction of the ROAD Dataset	Dec 29, 2020	Anomaly DetectionBenchmarking	—Unverified
ROBBIE: Robust Bias Evaluation of Large Generative Language Models	Nov 29, 2023	BenchmarkingFairness	—Unverified
OOD-CV: A Benchmark for Robustness to Out-of-Distribution Shifts of Individual Nuisances in Natural Images	Nov 29, 2021	3D Pose EstimationBenchmarking	—Unverified
Robust 2D/3D Vehicle Parsing in CVIS	Mar 11, 2021	BenchmarkingData Augmentation	—Unverified
Robust measurement of innovation performances in Europe with a hierarchy of interacting composite indicators	May 18, 2019	BenchmarkingDecision Making	—Unverified
Robust Medical Instrument Segmentation Challenge 2019	Mar 23, 2020	BenchmarkingInstance Segmentation	—Unverified
RobustMQ: Benchmarking Robustness of Quantized Models	Aug 4, 2023	Adversarial RobustnessBenchmarking	—Unverified
Robustness of Reinforcement Learning-Based Traffic Signal Control under Incidents: A Comparative Study	Jun 16, 2025	BenchmarkingTraffic Signal Control	—Unverified
Robust Salient Object Detection on Compressed Images Using Convolutional Neural Networks	Sep 20, 2024	Benchmarkingobject-detection	—Unverified
RobustSpring: Benchmarking Robustness to Image Corruptions for Optical Flow, Scene Flow and Stereo	May 14, 2025	BenchmarkingOptical Flow Estimation	—Unverified
Robust Vision Challenge 2020 -- 1st Place Report for Panoptic Segmentation	Aug 23, 2020	BenchmarkingPanoptic Segmentation	—Unverified
RP1M: A Large-Scale Motion Dataset for Piano Playing with Bi-Manual Dexterous Robot Hands	Aug 20, 2024	BenchmarkingContact-rich Manipulation	—Unverified
RRSIS: Referring Remote Sensing Image Segmentation	Jun 14, 2023	BenchmarkingImage Segmentation	—Unverified
RT-Pose: A 4D Radar Tensor-based 3D Human Pose Estimation and Localization Benchmark	Jul 18, 2024	3D Human Pose EstimationBenchmarking	—Unverified
Rule-based Data Selection for Large Language Models	Oct 7, 2024	BenchmarkingMath	—Unverified
RxRx3-core: Benchmarking drug-target interactions in High-Content Microscopy	Mar 26, 2025	BenchmarkingRepresentation Learning	—Unverified
Sadeed: Advancing Arabic Diacritization Through Small Language Model	Apr 30, 2025	Arabic Text DiacritizationBenchmarking	—Unverified
Safe Load Balancing in Software-Defined-Networking	Oct 22, 2024	BenchmarkingDeep Reinforcement Learning	—Unverified
SAIBench: A Structural Interpretation of AI for Science Through Benchmarks	Nov 29, 2023	BenchmarkingComputational Efficiency	—Unverified
SAIBench: Benchmarking AI for Science	Jun 11, 2022	BenchmarkingFriction	—Unverified
Saliency Benchmarking Made Easy: Separating Models, Maps and Metrics	Apr 27, 2017	AllBenchmarking	—Unverified
Salient Object Detection: A Benchmark	Jan 5, 2015	BenchmarkingObject	—Unverified
SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models	May 24, 2025	BenchmarkingVideo Grounding	—Unverified
SAM-based instance segmentation models for the automation of structural damage detection	Jan 27, 2024	BenchmarkingInstance Segmentation	—Unverified
Sarcasm in Sight and Sound: Benchmarking and Expansion to Improve Multimodal Sarcasm Detection	Sep 29, 2023	BenchmarkingDiversity	—Unverified
SASSE: Scalable and Adaptable 6-DOF Pose Estimation	Feb 5, 2019	BenchmarkingPose Estimation	—Unverified
SATBench: Benchmarking LLMs' Logical Reasoning via Automated Puzzle Generation from SAT Formulas	May 20, 2025	BenchmarkingLogical Reasoning	—Unverified
SAWNet: A Spatially Aware Deep Neural Network for 3D Point Cloud Processing	May 18, 2019	BenchmarkingScene Segmentation	—Unverified
Scaffold Splits Overestimate Virtual Screening Performance	Jun 2, 2024	BenchmarkingClustering	—Unverified
Scalable and Customizable Benchmark Problems for Many-Objective Optimization	Jan 26, 2020	BenchmarkingPosition	—Unverified
Scalable and Hybrid Ensemble-Based Causality Discovery	Dec 24, 2020	BenchmarkingDistributed Computing	—Unverified
Scalable, Distributed AI Frameworks: Leveraging Cloud Computing for Enhanced Deep Learning Performance and Efficiency	Apr 26, 2023	BenchmarkingCloud Computing	—Unverified
Scalable Psychological Momentum Forecasting in Esports	Jan 30, 2020	Benchmarking	—Unverified
Automated Coding of Communications in Collaborative Problem-solving Tasks Using ChatGPT	Nov 15, 2024	Benchmarking	—Unverified
ScanNeRF: a Scalable Benchmark for Neural Radiance Fields	Nov 24, 2022	BenchmarkingNeRF	—Unverified
SCBench: A Sports Commentary Benchmark for Video LLMs	Dec 23, 2024	Benchmarking	—Unverified
Scenarios and Approaches for Situated Natural Language Explanations	Jun 7, 2024	BenchmarkingIn-Context Learning	—Unverified
ScholarSearch: Benchmarking Scholar Searching Ability of LLMs	Jun 11, 2025	BenchmarkingInformation Retrieval	—Unverified
SciDoc2Diagrammer-MAF: Towards Generation of Scientific Diagrams from Documents guided by Multi-Aspect Feedback Refinement	Sep 28, 2024	BenchmarkingCode Generation	—Unverified
Science Across Languages: Assessing LLM Multilingual Translation of Scientific Papers	Feb 25, 2025	ArticlesBenchmarking	—Unverified
Scientific Machine Learning Benchmarks	Oct 25, 2021	BenchmarkingBIG-bench Machine Learning	—Unverified
SciHorizon: Benchmarking AI-for-Science Readiness from Scientific Data to Large Language Models	Mar 12, 2025	BenchmarkingFairness	—Unverified
scMamba: A Scalable Foundation Model for Single-Cell Multi-Omics Integration Beyond Highly Variable Feature Selection	Jun 25, 2025	BenchmarkingContrastive Learning	—Unverified
Score-Based Generative Models for Molecule Generation	Mar 7, 2022	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 78 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified