Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3251–3300 of 5548 papers

Title	Date	Tasks	Status
Learning to Fold Real Garments with One Arm: A Case Study in Cloud-Based Robotics Research	Apr 21, 2022	BenchmarkingDiversity	—Unverified
Learning to Mix n-Step Returns: Generalizing lambda-Returns for Deep Reinforcement Learning	May 21, 2017	BenchmarkingDecision Making	—Unverified
Learning to Plan via Deep Optimistic Value Exploration	Jun 8, 2020	BenchmarkingModel-based Reinforcement Learning	—Unverified
Learning to recognize Abnormalities in Chest X-Rays with Location-Aware Dense Networks	Mar 12, 2018	Benchmarking	—Unverified
Learning to Schedule Learning rate with Graph Neural Networks	Sep 29, 2021	Benchmarkingimage-classification	—Unverified
Learn-to-Race Challenge 2022: Benchmarking Safe Learning and Cross-domain Generalisation in Autonomous Racing	May 5, 2022	Autonomous DrivingAutonomous Racing	—Unverified
Learn to Solve Vehicle Routing Problems ASAP: A Neural Optimization Approach for Time-Constrained Vehicle Routing Problems with Finite Vehicle Fleet	Nov 7, 2024	BenchmarkingCombinatorial Optimization	—Unverified
Le benchmarking de la reconnaissance d'entit\'es nomm\'ees pour le fran (Benchmarking for French NER)	May 1, 2018	BenchmarkingNER	—Unverified
Less is more: Selecting the right benchmarking set of data for time series classification	Sep 29, 2021	BenchmarkingTime Series	—Unverified
Lessons From Red Teaming 100 Generative AI Products	Jan 13, 2025	BenchmarkingRed Teaming	—Unverified
Leveling the Playing Field: Carefully Comparing Classical and Learned Controllers for Quadrotor Trajectory Tracking	Jun 21, 2025	BenchmarkingReinforcement Learning (RL)	—Unverified
Leveraging Benchmarking Data for Informed One-Shot Dynamic Algorithm Selection	Feb 12, 2021	AutoMLBenchmarking	—Unverified
Leveraging Contextual Information for Effective Entity Salience Detection	Sep 14, 2023	ArticlesBenchmarking	—Unverified
Leveraging LLMs to Create a Haptic Devices' Recommendation System	Jan 22, 2025	Benchmarking	—Unverified
Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study	Mar 7, 2023	Audio GenerationBenchmarking	—Unverified
Leveraging Spatial and Semantic Feature Extraction for Skin Cancer Diagnosis with Capsule Networks and Graph Neural Networks	Mar 18, 2024	BenchmarkingClassification	—Unverified
Leveraging State Space Models in Long Range Genomics	Apr 7, 2025	BenchmarkingGPU	—Unverified
Break a Lag: Triple Exponential Moving Average for Enhanced Optimization	Jun 2, 2023	Benchmarkingimage-classification	—Unverified
LEXam: Benchmarking Legal Reasoning on 340 Law Exams	May 19, 2025	BenchmarkingLegal Reasoning	—Unverified
LIBRE: The Multiple 3D LiDAR Dataset	Mar 13, 2020	Benchmarking	—Unverified
LidarGait: Benchmarking 3D Gait Recognition with Point Clouds	Nov 19, 2022	3D geometryBenchmarking	—Unverified
Lifelogging As An Extreme Form of Personal Information Management -- What Lessons To Learn	Jan 11, 2024	BenchmarkingForm	—Unverified
Light Field Image Quality Assessment With Auxiliary Learning Based on Depthwise and Anglewise Separable Convolutions	Dec 10, 2024	Auxiliary LearningBenchmarking	—Unverified
Lightly Weighted Automatic Audio Parameter Extraction for the Quality Assessment of Consensus Auditory-Perceptual Evaluation of Voice	Nov 27, 2023	Benchmarking	—Unverified
Lightning UQ Box: A Comprehensive Framework for Uncertainty Quantification in Deep Learning	Oct 4, 2024	BenchmarkingUncertainty Quantification	—Unverified
Lightweight Jet Reconstruction and Identification as an Object Detection Task	Feb 9, 2022	Benchmarkingobject-detection	—Unverified
LIM: Large Interpolator Model for Dynamic Reconstruction	Mar 28, 2025	4D reconstructionBenchmarking	—Unverified
Line Goes Up? Inherent Limitations of Benchmarks for Evaluating Large Language Models	Feb 20, 2025	Benchmarking	—Unverified
Liquid State Genetic Programming	Dec 5, 2023	Benchmarking	—Unverified
Livestock Monitoring with Transformer	Nov 1, 2021	Action RecognitionBenchmarking	—Unverified
LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education	Feb 9, 2024	BenchmarkingChatbot	—Unverified
LLAVIDAL: A Large LAnguage VIsion Model for Daily Activities of Living	Jun 13, 2024	BenchmarkingHuman-Object Interaction Detection	—Unverified
LLM4DV: Using Large Language Models for Hardware Test Stimuli Generation	Oct 6, 2023	BenchmarkingMathematical Reasoning	—Unverified
LLM-based Evaluation Policy Extraction for Ecological Modeling	May 20, 2025	BenchmarkingLarge Language Model	—Unverified
LLM Evaluators Recognize and Favor Their Own Generations	Apr 15, 2024	Benchmarking	—Unverified
LLM-initialized Differentiable Causal Discovery	Oct 28, 2024	BenchmarkingCausal Discovery	—Unverified
LLMPopcorn: An Empirical Study of LLMs as Assistants for Popular Micro-video Generation	Feb 18, 2025	BenchmarkingText Generation	—Unverified
LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study	Sep 13, 2024	BenchmarkingGrapheme-to-Phoneme Conversion	—Unverified
LLMs and Finetuning: Benchmarking cross-domain performance for hate speech detection	Oct 29, 2023	BenchmarkingDiversity	—Unverified
LMFormer: Lane based Motion Prediction Transformer	Apr 14, 2025	Autonomous DrivingBenchmarking	—Unverified
LMME3DHF: Benchmarking and Evaluating Multimodal 3D Human Face Generation with LMMs	Apr 29, 2025	BenchmarkingFace Generation	—Unverified
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models	Jul 17, 2024	BenchmarkingLanguage Modelling	—Unverified
Load-independent Metrics for Benchmarking Force Controllers	May 13, 2025	Benchmarking	—Unverified
Local Data Quantity-Aware Weighted Averaging for Federated Learning with Dishonest Clients	Apr 17, 2025	BenchmarkingFederated Learning	—Unverified
Logically at Factify 2: A Multi-Modal Fact Checking System Based on Evidence Retrieval techniques and Transformer Encoder Architecture	Jan 9, 2023	AvgBenchmarking	—Unverified
Logically at Factify 2022: Multimodal Fact Verification	Dec 16, 2021	BenchmarkingFact Checking	—Unverified
Benchmarking Continuous Time Models for Predicting Multiple Sclerosis Progression	Feb 15, 2023	Benchmarking	—Unverified
LongProc: Benchmarking Long-Context Language Models on Long Procedural Generation	Jan 9, 2025	2k8k	—Unverified
Long Range Arena : A Benchmark for Efficient Transformers	Jan 1, 2021	16kBenchmarking	—Unverified
Look, Read and Feel: Benchmarking Ads Understanding with Multimodal Multitask Learning	Dec 21, 2019	BenchmarkingPrediction	—Unverified

Show:10 25 50

← PrevPage 66 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified