Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2926–2950 of 5548 papers

Title	Date	Tasks	Status
How much progress have we made in neural network training? A New Evaluation Protocol for Benchmarking Optimizers	Oct 19, 2020	BenchmarkingGraph Mining	—Unverified
How Propense Are Large Language Models at Producing Code Smells? A Benchmarking Study	Dec 25, 2024	BenchmarkingCode Generation	—Unverified
Benchmarking Ultra-High-Definition Image Super-Resolution	Jan 1, 2021	4k8k	—Unverified
The FACTS Grounding Leaderboard: Benchmarking LLMs' Ability to Ground Responses to Long-Form Input	Jan 6, 2025	BenchmarkingForm	—Unverified
Benchmarking Twitter Sentiment Analysis Tools	May 1, 2014	BenchmarkingDecision Making	—Unverified
The Forchheim Image Database for Camera Identification in the Wild	Nov 4, 2020	BenchmarkingFact Checking	—Unverified
MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models	Jun 11, 2024	BenchmarkingFairness	—Unverified
How Universal are Universal Dependencies? Exploiting Syntax for Multilingual Clause-level Sentiment Detection	May 1, 2020	BenchmarkingBIG-bench Machine Learning	—Unverified
Benchmarking Transformers-based models on French Spoken Language Understanding tasks	Jul 19, 2022	BenchmarkingSpoken Language Understanding	—Unverified
How well it works: Benchmarking performance of GPT models on medical natural language processing tasks	Jun 12, 2024	Benchmarking	—Unverified
You Only Crash Once v2: Perceptually Consistent Strong Features for One-Stage Domain Adaptive Detection of Space Terrain	Jan 23, 2025	BenchmarkingDomain Adaptation	—Unverified
The Impact of ASR on the Automatic Analysis of Linguistic Complexity and Sophistication in Spontaneous L2 Speech	Apr 17, 2021	Benchmarking	—Unverified
The Impact of Genomic Variation on Function (IGVF) Consortium	Jul 24, 2023	Benchmarking	—Unverified
A General Taylor Framework for Unifying and Revisiting Attribution Methods	May 28, 2021	BenchmarkingDecision Making	—Unverified
HULK: An Energy Efficiency Benchmark Platform for Responsible Natural Language Processing	Feb 14, 2020	Benchmarking	—Unverified
Benchmarking Transformer-based Language Models for Arabic Sentiment and Sarcasm Detection	Apr 1, 2021	BenchmarkingSarcasm Detection	—Unverified
Benchmarking Toxic Molecule Classification using Graph Neural Networks and Few Shot Learning	Nov 22, 2023	BenchmarkingDrug Discovery	—Unverified
Human Body Shape Classification Based on a Single Image	May 29, 2023	BenchmarkingClassification	—Unverified
Benchmarking Time Series Forecasting Models: From Statistical Techniques to Foundation Models in Real-World Applications	Feb 5, 2025	BenchmarkingFeature Engineering	—Unverified
Benchmarking the Text-to-SQL Capability of Large Language Models: A Comprehensive Evaluation	Mar 5, 2024	BenchmarkingIn-Context Learning	—Unverified
A generalized kinetic framework applied to whole-cell catalysis in biofilm flow reactors clarifies performance enhancements	Apr 10, 2019	Benchmarking	—Unverified
HyBiomass: Global Hyperspectral Imagery Benchmark Dataset for Evaluating Geospatial Foundation Models in Forest Aboveground Biomass Estimation	Jun 12, 2025	Benchmarking	—Unverified
Hybrid data driven/thermal simulation model for comfort assessment	Sep 4, 2023	Benchmarking	—Unverified
Hybrid Long Document Summarization using C2F-FAR and ChatGPT: A Practical Study	Jun 1, 2023	ArticlesBenchmarking	—Unverified
The iNaturalist Sounds Dataset	May 31, 2025	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 118 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified