Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4251–4300 of 5548 papers

Title	Date	Tasks	Status
Uncertainty Estimation with Deep Learning for Rainfall-Runoff Modelling	Dec 15, 2020	BenchmarkingDeep Learning	—Unverified
Understanding and Benchmarking Artificial Intelligence: OpenAI's o3 Is Not AGI	Jan 13, 2025	ARCBenchmarking	—Unverified
Understanding Foundation Models: Are We Back in 1924?	Sep 11, 2024	Benchmarking	—Unverified
Understanding or Manipulation: Rethinking Online Performance Gains of Modern Recommender Systems	Oct 11, 2022	BenchmarkingRecommendation Systems	—Unverified
Understanding Recurrent Neural Architectures by Analyzing and Synthesizing Long Distance Dependencies in Benchmark Sequential Datasets	Oct 6, 2018	BenchmarkingLanguage Modeling	—Unverified
Understanding the Limits of Lifelong Knowledge Editing in LLMs	Mar 7, 2025	Benchmarkingknowledge editing	—Unverified
Understanding the RoPE Extensions of Long-Context LLMs: An Attention Perspective	Jun 19, 2024	BenchmarkingContinual Pretraining	—Unverified
Understanding the User: An Intent-Based Ranking Dataset	Aug 30, 2024	BenchmarkingInformation Retrieval	—Unverified
Uniform Discretized Integrated Gradients: An effective attribution based method for explaining large language models	Dec 5, 2024	BenchmarkingFeature Importance	—Unverified
Unifying Few- and Zero-Shot Egocentric Action Recognition	May 27, 2020	Action RecognitionBenchmarking	—Unverified
UniIR: Training and Benchmarking Universal Multimodal Information Retrievers	Nov 28, 2023	BenchmarkingInformation Retrieval	—Unverified
Uni-Render: A Unified Accelerator for Real-Time Rendering Across Diverse Neural Renderers	Mar 31, 2025	BenchmarkingNeural Rendering	—Unverified
Unitail: Detecting, Reading, and Matching in Retail Scene	Apr 1, 2022	BenchmarkingDense Object Detection	—Unverified
Unleashing OpenTitan's Potential: a Silicon-Ready Embedded Secure Element for Root of Trust and Cryptographic Offloading	Jun 17, 2024	Autonomous VehiclesBenchmarking	—Unverified
Unlocking the Potential: Benchmarking Large Language Models in Water Engineering and Research	Jul 22, 2024	Benchmarking	—Unverified
Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering	Mar 23, 2025	BenchmarkingChart Question Answering	—Unverified
Unreal Robotics Lab: A High-Fidelity Robotics Simulator with Advanced Physics and Rendering	Apr 19, 2025	BenchmarkingDataset Generation	—Unverified
UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI	Dec 30, 2024	BenchmarkingReinforcement Learning (RL)	—Unverified
UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images	May 6, 2024	Benchmarking	—Unverified
Unsupervised Deep Epipolar Flow for Stationary or Dynamic Scenes	Apr 8, 2019	BenchmarkingDeep Learning	—Unverified
Unsupervised Feature Learning for Environmental Sound Classification Using Weighted Cycle-Consistent Generative Adversarial Network	Apr 8, 2019	BenchmarkingClassification	—Unverified
Unsupervised Hierarchical Grouping of Knowledge Graph Entities	Aug 20, 2019	BenchmarkingKnowledge Graphs	—Unverified
Unsupervised Learning of 3D Object Categories from Videos in the Wild	Mar 30, 2021	BenchmarkingMonocular Reconstruction	—Unverified
Unsupervised machine learning approach for building composite indicators with fuzzy metrics	Aug 15, 2022	Benchmarking	—Unverified
Unsupervised Person Re-identification by Deep Learning Tracklet Association	Sep 8, 2018	BenchmarkingDeep Learning	—Unverified
Unsupervised Single Image Deraining with Self-supervised Constraints	Nov 21, 2018	BenchmarkingGenerative Adversarial Network	—Unverified
Unsupervised Spectral Demosaicing with Lightweight Spectral Attention Networks	Jul 5, 2023	BenchmarkingDemosaicking	—Unverified
Unsupervised Synthetic Image Refinement via Contrastive Learning and Consistent Semantic-Structural Constraints	Apr 25, 2023	BenchmarkingContrastive Learning	—Unverified
Unveiling the potential of large language models in generating semantic and cross-language clones	Sep 12, 2023	BenchmarkingCode Generation	—Unverified
UPREVE: An End-to-End Causal Discovery Benchmarking System	Jul 25, 2023	BenchmarkingCausal Discovery	—Unverified
Urania: Differentially Private Insights into AI Use	Jun 5, 2025	BenchmarkingChatbot	—Unverified
UrbanVideo-Bench: Benchmarking Vision-Language Models on Embodied Intelligence with Video Data in Urban Spaces	Mar 8, 2025	Benchmarkingcounterfactual	—Unverified
Use of Deep Neural Networks for Uncertain Stress Functions with Extensions to Impact Mechanics	Nov 3, 2023	Benchmarkingquantile regression	—Unverified
User Profile with Large Language Models: Construction, Updating, and Benchmarking	Feb 15, 2025	BenchmarkingProfile Generation	—Unverified
Using Affine Combinations of BBOB Problems for Performance Assessment	Mar 8, 2023	Benchmarking	—Unverified
Using generative adversarial networks to synthesize artificial financial datasets	Feb 6, 2020	Benchmarking	—Unverified
Using Multi-Temporal Sentinel-1 and Sentinel-2 data for water bodies mapping	Jan 5, 2024	Benchmarking	—Unverified
Using Neural Architecture Search for Improving Software Flaw Detection in Multimodal Deep Learning Models	Sep 22, 2020	BenchmarkingBIG-bench Machine Learning	—Unverified
Using PCA to Efficiently Represent State Spaces	May 2, 2015	BenchmarkingDimensionality Reduction	—Unverified
Using Regular Languages to Explore the Representational Capacity of Recurrent Neural Architectures	Aug 15, 2018	Benchmarking	—Unverified
Using Well-Understood Single-Objective Functions in Multiobjective Black-Box Optimization Test Suites	Apr 1, 2016	BenchmarkingMultiobjective Optimization	—Unverified
uTHCD: A New Benchmarking for Tamil Handwritten OCR	Mar 13, 2021	BenchmarkingOptical Character Recognition (OCR)	—Unverified
Utility-Optimized Synthesis of Differentially Private Location Traces	Sep 14, 2020	Bayesian OptimizationBenchmarking	—Unverified
Validation of neural spike sorting algorithms without ground-truth information	Aug 27, 2015	BenchmarkingSpike Sorting	—Unverified
Value-at-Risk-Based Portfolio Insurance: Performance Evaluation and Benchmarking Against CPPI in a Markov-Modulated Regime-Switching Market	May 21, 2023	BenchmarkingFinancial Analysis	—Unverified
Varco Arena: A Tournament Approach to Reference-Free Benchmarking Large Language Models	Nov 2, 2024	Benchmarking	—Unverified
Variational Laplace for Bayesian neural networks	Feb 27, 2021	BenchmarkingImage Classification	—Unverified
Variational Quantum Circuits Enhanced Generative Adversarial Network	Feb 2, 2024	BenchmarkingGenerative Adversarial Network	—Unverified
Parametrized quantum policies for reinforcement learning	Mar 9, 2021	Benchmarkingreinforcement-learning	—Unverified
Policy Gradients using Variational Quantum Circuits	Mar 20, 2022	BenchmarkingQuantum Machine Learning	—Unverified

Show:10 25 50

← PrevPage 86 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified