Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2901–2950 of 5548 papers

Title	Date	Tasks	Status
Benchmarking unsupervised near-duplicate image detection	Jul 3, 2019	BenchmarkingBinary Classification	—Unverified
HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model	Jun 5, 2025	BenchmarkingLanguage Modeling	—Unverified
Holistic Dynamic Frequency Transformer for Image Fusion and Exposure Correction	Sep 3, 2023	BenchmarkingExposure Correction	—Unverified
Holistic Inverse Rendering of Complex Facade via Aerial 3D Scanning	Nov 20, 2023	BenchmarkingInverse Rendering	—Unverified
Holistic Multi-View Building Analysis in the Wild with Projection Pooling	Aug 23, 2020	Benchmarking	—Unverified
Hollywood 3D: Recognizing Actions in 3D Natural Scenes	Jun 1, 2013	Action RecognitionBenchmarking	—Unverified
HoloGen: An open source toolbox for high-speed hologram generation	Aug 24, 2020	3D HolographyBenchmarking	—Unverified
The Extractive-Abstractive Axis: Measuring Content "Borrowing" in Generative Language Models	Jul 20, 2023	Benchmarking	—Unverified
Benchmarking Unsupervised Anomaly Detection and Localization	May 30, 2022	Anomaly DetectionBenchmarking	—Unverified
Horizon Scans can be accelerated using novel information retrieval and artificial intelligence tools	Apr 2, 2025	Active LearningArticles	—Unverified
HOT3D: Hand and Object Tracking in 3D from Egocentric Multi-View Videos	Nov 28, 2024	BenchmarkingObject Tracking	—Unverified
Hotel Recognition via Latent Image Embedding	Jun 15, 2021	BenchmarkingMetric Learning	—Unverified
Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning	May 19, 2025	Benchmarking	—Unverified
Benchmarking Uncertainty Quantification on Biosignal Classification Tasks under Dataset Shift	Dec 16, 2021	BenchmarkingClassification	—Unverified
Household Electricity Demand Forecasting -- Benchmarking State-of-the-Art Methods	Apr 1, 2014	BenchmarkingDemand Forecasting	—Unverified
How Aligned are Different Alignment Metrics?	Jul 10, 2024	Benchmarking	—Unverified
How Certain are Uncertainty Estimates? Three Novel Earth Observation Datasets for Benchmarking Uncertainty Quantification in Machine Learning	Dec 9, 2024	BenchmarkingEarth Observation	—Unverified
How Different AI Chatbots Behave? Benchmarking Large Language Models in Behavioral Economics Games	Dec 16, 2024	BenchmarkingChatbot	—Unverified
How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension	Oct 4, 2024	BenchmarkingComputational chemistry	—Unverified
The FaceChannelS: Strike of the Sequences for the AffWild 2 Challenge	Oct 4, 2020	BenchmarkingBIG-bench Machine Learning	—Unverified
Benchmarking Ultra-Low-Power μNPUs	Mar 28, 2025	Benchmarking	—Unverified
How Good is a Video Summary? A New Benchmarking Dataset and Evaluation Framework Towards Realistic Video Summarization	Jan 26, 2021	BenchmarkingSupervised Video Summarization	—Unverified
Evaluating the Efficacy of Foundational Models: Advancing Benchmarking Practices to Enhance Fine-Tuning Decision-Making	Jun 25, 2024	BenchmarkingDecision Making	—Unverified
How Good Is Neural Combinatorial Optimization? A Systematic Evaluation on the Traveling Salesman Problem	Sep 22, 2022	BenchmarkingCombinatorial Optimization	—Unverified
How Hungry is AI? Benchmarking Energy, Water, and Carbon Footprint of LLM Inference	May 14, 2025	Benchmarking	—Unverified
How much progress have we made in neural network training? A New Evaluation Protocol for Benchmarking Optimizers	Oct 19, 2020	BenchmarkingGraph Mining	—Unverified
How Propense Are Large Language Models at Producing Code Smells? A Benchmarking Study	Dec 25, 2024	BenchmarkingCode Generation	—Unverified
Benchmarking Ultra-High-Definition Image Super-Resolution	Jan 1, 2021	4k8k	—Unverified
The FACTS Grounding Leaderboard: Benchmarking LLMs' Ability to Ground Responses to Long-Form Input	Jan 6, 2025	BenchmarkingForm	—Unverified
Benchmarking Twitter Sentiment Analysis Tools	May 1, 2014	BenchmarkingDecision Making	—Unverified
The Forchheim Image Database for Camera Identification in the Wild	Nov 4, 2020	BenchmarkingFact Checking	—Unverified
MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models	Jun 11, 2024	BenchmarkingFairness	—Unverified
How Universal are Universal Dependencies? Exploiting Syntax for Multilingual Clause-level Sentiment Detection	May 1, 2020	BenchmarkingBIG-bench Machine Learning	—Unverified
Benchmarking Transformers-based models on French Spoken Language Understanding tasks	Jul 19, 2022	BenchmarkingSpoken Language Understanding	—Unverified
How well it works: Benchmarking performance of GPT models on medical natural language processing tasks	Jun 12, 2024	Benchmarking	—Unverified
You Only Crash Once v2: Perceptually Consistent Strong Features for One-Stage Domain Adaptive Detection of Space Terrain	Jan 23, 2025	BenchmarkingDomain Adaptation	—Unverified
The Impact of ASR on the Automatic Analysis of Linguistic Complexity and Sophistication in Spontaneous L2 Speech	Apr 17, 2021	Benchmarking	—Unverified
The Impact of Genomic Variation on Function (IGVF) Consortium	Jul 24, 2023	Benchmarking	—Unverified
A General Taylor Framework for Unifying and Revisiting Attribution Methods	May 28, 2021	BenchmarkingDecision Making	—Unverified
HULK: An Energy Efficiency Benchmark Platform for Responsible Natural Language Processing	Feb 14, 2020	Benchmarking	—Unverified
Benchmarking Transformer-based Language Models for Arabic Sentiment and Sarcasm Detection	Apr 1, 2021	BenchmarkingSarcasm Detection	—Unverified
Benchmarking Toxic Molecule Classification using Graph Neural Networks and Few Shot Learning	Nov 22, 2023	BenchmarkingDrug Discovery	—Unverified
Human Body Shape Classification Based on a Single Image	May 29, 2023	BenchmarkingClassification	—Unverified
Benchmarking Time Series Forecasting Models: From Statistical Techniques to Foundation Models in Real-World Applications	Feb 5, 2025	BenchmarkingFeature Engineering	—Unverified
Benchmarking the Text-to-SQL Capability of Large Language Models: A Comprehensive Evaluation	Mar 5, 2024	BenchmarkingIn-Context Learning	—Unverified
A generalized kinetic framework applied to whole-cell catalysis in biofilm flow reactors clarifies performance enhancements	Apr 10, 2019	Benchmarking	—Unverified
HyBiomass: Global Hyperspectral Imagery Benchmark Dataset for Evaluating Geospatial Foundation Models in Forest Aboveground Biomass Estimation	Jun 12, 2025	Benchmarking	—Unverified
Hybrid data driven/thermal simulation model for comfort assessment	Sep 4, 2023	Benchmarking	—Unverified
Hybrid Long Document Summarization using C2F-FAR and ChatGPT: A Practical Study	Jun 1, 2023	ArticlesBenchmarking	—Unverified
The iNaturalist Sounds Dataset	May 31, 2025	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 59 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified