Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2526–2550 of 5548 papers

Title	Date	Tasks	Status
Benchmarking Robustness and Generalization in Multi-Agent Systems: A Case Study on Neural MMO	Aug 30, 2023	BenchmarkingReinforcement Learning (RL)	—Unverified
Benchmarking Robot Manipulation with the Rubik's Cube	Feb 14, 2022	BenchmarkingRobot Manipulation	—Unverified
A Comprehensive Multi-Illuminant Dataset for Benchmarking of the Intrinsic Image Algorithms	Dec 1, 2015	BenchmarkingImage Generation	—Unverified
Benchmarking Retrieval-Augmented Large Language Models in Biomedical NLP: Application, Robustness, and Self-Awareness	May 13, 2024	Benchmarkingcounterfactual	—Unverified
A Systematic Analysis of Hybrid Linear Attention	Jul 8, 2025	BenchmarkingLanguage Modeling	—Unverified
Benchmarking Retrieval-Augmented Generation for Chemistry	May 12, 2025	BenchmarkingRAG	—Unverified
Self-Aligning Depth-regularized Radiance Fields for Asynchronous RGB-D Sequences	Nov 14, 2022	Autonomous DrivingBenchmarking	—Unverified
Airport Capacity and Performance in Europe -- A study of transport economics, service quality and sustainability	Feb 4, 2021	Benchmarking	—Unverified
Benchmarking Resource Usage for Efficient Distributed Deep Learning	Jan 28, 2022	BenchmarkingDeep Learning	—Unverified
Goal-Driven Sequential Data Abstraction	Jul 29, 2019	BenchmarkingGeneral Reinforcement Learning	—Unverified
A Survey on Vision Autoregressive Model	Nov 13, 2024	3D GenerationBenchmarking	—Unverified
A Survey on Temporal Sentence Grounding in Videos	Sep 16, 2021	Action LocalizationBenchmarking	—Unverified
Benchmarking Reinforcement Learning Methods for Dexterous Robotic Manipulation with a Three-Fingered Gripper	Aug 27, 2024	BenchmarkingReinforcement Learning (RL)	—Unverified
4Seasons: Benchmarking Visual SLAM and Long-Term Localization for Autonomous Driving in Challenging Conditions	Dec 31, 2022	Autonomous DrivingBenchmarking	—Unverified
Domain Adaptation with Joint Learning for Generic, Optical Car Part Recognition and Detection Systems (Go-CaRD)	Jun 15, 2020	BenchmarkingDomain Adaptation	—Unverified
GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models	Apr 10, 2024	BenchmarkingDenoising	—Unverified
Graph Alignment for Benchmarking Graph Neural Networks and Learning Positional Encodings	May 19, 2025	BenchmarkingCombinatorial Optimization	—Unverified
Greening AI-enabled Systems with Software Engineering: A Research Agenda for Environmentally Sustainable AI Practices	Jun 2, 2025	Benchmarking	—Unverified
Helsinki Deblur Challenge 2021: description of photographic data	May 21, 2021	BenchmarkingDeblurring	—Unverified
A Survey on Semi-Supervised Learning for Delayed Partially Labelled Data Streams	Jun 16, 2021	Active LearningBenchmarking	—Unverified
A Survey on Preserving Fairness Guarantees in Changing Environments	Nov 14, 2022	BenchmarkingDecision Making	—Unverified
Benchmarking Reasoning Robustness in Large Language Models	Mar 6, 2025	BenchmarkingMath	—Unverified
Benchmarking real-time monitoring strategies for ethanol production from lignocellulosic biomass	Jan 29, 2021	Benchmarking	—Unverified
Global Wheat Head Dataset 2021: more diversity to improve the benchmarking of wheat head localization methods	May 17, 2021	BenchmarkingDiversity	—Unverified
Feasibility of BERT Embeddings For Domain-Specific Knowledge Mining	Jan 16, 2022	BenchmarkingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 102 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified