Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2951–3000 of 5548 papers

Title	Date	Tasks	Status
Dynamic Intelligence Assessment: Benchmarking LLMs on the Road to AGI with a Focus on Model Confidence	Oct 20, 2024	Benchmarking	—Unverified
Dynamic-KGQA: A Scalable Framework for Generating Adaptive Question Answering Datasets	Mar 6, 2025	BenchmarkingDataset Generation	—Unverified
Dynamic Obstacle Avoidance with Bounded Rationality Adversarial Reinforcement Learning	Mar 14, 2025	BenchmarkingNavigate	—Unverified
Dynamic PDB: A New Dataset and a SE(3) Model Extension by Integrating Dynamic Behaviors and Physical Properties in Protein Structures	Aug 22, 2024	BenchmarkingTrajectory Prediction	—Unverified
Dynamic Risk Assessment Methodology with an LDM-based System for Parking Scenarios	Apr 5, 2024	Benchmarking	—Unverified
DynamicVL: Benchmarking Multimodal Large Language Models for Dynamic City Understanding	May 27, 2025	BenchmarkingChange Detection	—Unverified
E2E Parking Dataset: An Open Benchmark for End-to-End Autonomous Parking	Apr 15, 2025	BenchmarkingPosition	—Unverified
EarthquakeNPP: Benchmark Datasets for Earthquake Forecasting with Neural Point Processes	Sep 27, 2024	BenchmarkingDataset Generation	—Unverified
EASTER: Efficient and Scalable Text Recognizer	Aug 18, 2020	BenchmarkingHandwritten Text Recognition	—Unverified
ECG-Adv-GAN: Detecting ECG Adversarial Examples with Conditional Generative Adversarial Networks	Jul 16, 2021	BenchmarkingGenerative Adversarial Network	—Unverified
ECKGBench: Benchmarking Large Language Models in E-commerce Leveraging Knowledge Graph	Mar 20, 2025	BenchmarkingHallucination	—Unverified
EconGym: A Scalable AI Testbed with Diverse Economic Tasks	Jun 13, 2025	Benchmarking	—Unverified
EconWebArena: Benchmarking Autonomous Agents on Economic Tasks in Realistic Web Environments	Jun 9, 2025	BenchmarkingNavigate	—Unverified
Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey	May 3, 2025	Autonomous DrivingBenchmarking	—Unverified
Edge-First Language Model Inference: Models, Metrics, and Tradeoffs	May 22, 2025	BenchmarkingLanguage Modeling	—Unverified
EdgeMark: An Automation and Benchmarking System for Embedded Artificial Intelligence Tools	Feb 3, 2025	Benchmarking	—Unverified
EditVal: Benchmarking Diffusion Based Text-Guided Image Editing Methods	Oct 3, 2023	Benchmarkingtext-guided-image-editing	—Unverified
EEGS: A Transparent Model of Emotions	Nov 4, 2020	Benchmarkingmodel	—Unverified
EffCNet: An Efficient CondenseNet for Image Classification on NXP BlueBox	Nov 28, 2021	BenchmarkingClassification	—Unverified
Effective Evaluation of Deep Active Learning on Image Classification Tasks	Jun 16, 2021	Active LearningBenchmarking	—Unverified
Effective Transfer of Pretrained Large Visual Model for Fabric Defect Segmentation via Specifc Knowledge Injection	Jun 28, 2023	BenchmarkingDiversity	—Unverified
Efficacy of Synthetic Data as a Benchmark	Sep 18, 2024	BenchmarkingFew-Shot Learning	—Unverified
Efficiency in European Air Traffic Management -- A Fundamental Analysis of Data, Models, and Methods	Feb 15, 2023	BenchmarkingDecision Making	—Unverified
Efficient computation of backprojection arrays for 3D light field deconvolution	Mar 20, 2020	Benchmarking	—Unverified
Efficient and Accurate In-Database Machine Learning with SQL Code Generation in Python	Apr 7, 2021	BenchmarkingBIG-bench Machine Learning	—Unverified
Efficient Benchmarking of Algorithm Configuration Procedures via Model-Based Surrogates	Mar 30, 2017	BenchmarkingHyperparameter Optimization	—Unverified
Efficient Benchmarking of Language Models	Aug 22, 2023	BenchmarkingGPU	—Unverified
Efficient Benchmarking of NLP APIs using Multi-armed Bandits	Apr 1, 2017	BenchmarkingMulti-Armed Bandits	—Unverified
Efficient but Vulnerable: Benchmarking and Defending LLM Batch Prompting Attack	Mar 18, 2025	8kBenchmarking	—Unverified
Efficient Channel Estimation for Millimeter Wave and Terahertz Systems Enabled by Integrated Super-resolution Sensing and Communication	Jul 30, 2024	BenchmarkingSuper-Resolution	—Unverified
Efficient Exploration of Image Classifier Failures with Bayesian Optimization and Text-to-Image Models	Apr 26, 2024	AttributeBayesian Optimization	—Unverified
Efficient Expression Neutrality Estimation with Application to Face Recognition Utility Prediction	Feb 8, 2024	BenchmarkingFace Image Quality	—Unverified
Efficiently Exploring Ordering Problems through Conflict-directed Search	Apr 15, 2019	BenchmarkingScheduling	—Unverified
Efficiently Quantifying Individual Agent Importance in Cooperative MARL	Dec 13, 2023	BenchmarkingMulti-agent Reinforcement Learning	—Unverified
Efficient Processing of Deep Neural Networks: A Tutorial and Survey	Mar 27, 2017	Benchmarkingspeech-recognition	—Unverified
Efficient Sparse Coding with the Adaptive Locally Competitive Algorithm for Speech Classification	Sep 12, 2024	BenchmarkingClassification	—Unverified
EfficientSRFace: An Efficient Network with Super-Resolution Enhancement for Accurate Face Detection	Jun 4, 2023	BenchmarkingFace Detection	—Unverified
Efficient Training of Deep Classifiers for Wireless Source Identification using Test SNR Estimates	Dec 26, 2019	Benchmarking	—Unverified
Egocentric Human-Object Interaction Detection: A New Benchmark and Method	Jun 17, 2025	BenchmarkingHuman-Object Interaction Detection	—Unverified
EgoPressure: A Dataset for Hand Pressure and Pose Estimation in Egocentric Vision	Sep 3, 2024	BenchmarkingMixed Reality	—Unverified
EGraFFBench: Evaluation of Equivariant Graph Neural Network Force Fields for Atomistic Simulations	Oct 3, 2023	Atomic ForcesBenchmarking	—Unverified
ELKI: A large open-source library for data analysis - ELKI Release 0.7.5 "Heidelberg"	Feb 10, 2019	BenchmarkingClustering	—Unverified
ELSA: Evaluating Localization of Social Activities in Urban Streets using Open-Vocabulary Detection	Jun 3, 2024	Action RecognitionBenchmarking	—Unverified
Embarrassingly Simple Scribble Supervision for 3D Medical Segmentation	Mar 19, 2024	BenchmarkingSegmentation	—Unverified
Embodied Artificial Intelligence through Distributed Adaptive Control: An Integrated Framework	Apr 5, 2017	BenchmarkingBoard Games	—Unverified
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents	Feb 13, 2025	Benchmarking	—Unverified
Emerging Approaches for THz Array Imaging: A Tutorial Review and Software Tool	Sep 16, 2023	BenchmarkingImage Super-Resolution	—Unverified
Emo3D: Metric and Benchmarking Dataset for 3D Facial Expression Generation from Emotion Description	Oct 2, 2024	BenchmarkingFacial expression generation	—Unverified
EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models	Feb 6, 2025	BenchmarkingEmotional Intelligence	—Unverified
Emotion Analysis of Tweets Banning Education in Afghanistan	Jun 28, 2023	BenchmarkingEmotion Classification	—Unverified

Show:10 25 50

← PrevPage 60 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified