Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2951–2975 of 5548 papers

Title	Date	Tasks	Status
Dynamic Intelligence Assessment: Benchmarking LLMs on the Road to AGI with a Focus on Model Confidence	Oct 20, 2024	Benchmarking	—Unverified
Dynamic-KGQA: A Scalable Framework for Generating Adaptive Question Answering Datasets	Mar 6, 2025	BenchmarkingDataset Generation	—Unverified
Dynamic Obstacle Avoidance with Bounded Rationality Adversarial Reinforcement Learning	Mar 14, 2025	BenchmarkingNavigate	—Unverified
Dynamic PDB: A New Dataset and a SE(3) Model Extension by Integrating Dynamic Behaviors and Physical Properties in Protein Structures	Aug 22, 2024	BenchmarkingTrajectory Prediction	—Unverified
Dynamic Risk Assessment Methodology with an LDM-based System for Parking Scenarios	Apr 5, 2024	Benchmarking	—Unverified
DynamicVL: Benchmarking Multimodal Large Language Models for Dynamic City Understanding	May 27, 2025	BenchmarkingChange Detection	—Unverified
E2E Parking Dataset: An Open Benchmark for End-to-End Autonomous Parking	Apr 15, 2025	BenchmarkingPosition	—Unverified
EarthquakeNPP: Benchmark Datasets for Earthquake Forecasting with Neural Point Processes	Sep 27, 2024	BenchmarkingDataset Generation	—Unverified
EASTER: Efficient and Scalable Text Recognizer	Aug 18, 2020	BenchmarkingHandwritten Text Recognition	—Unverified
ECG-Adv-GAN: Detecting ECG Adversarial Examples with Conditional Generative Adversarial Networks	Jul 16, 2021	BenchmarkingGenerative Adversarial Network	—Unverified
ECKGBench: Benchmarking Large Language Models in E-commerce Leveraging Knowledge Graph	Mar 20, 2025	BenchmarkingHallucination	—Unverified
EconGym: A Scalable AI Testbed with Diverse Economic Tasks	Jun 13, 2025	Benchmarking	—Unverified
EconWebArena: Benchmarking Autonomous Agents on Economic Tasks in Realistic Web Environments	Jun 9, 2025	BenchmarkingNavigate	—Unverified
Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey	May 3, 2025	Autonomous DrivingBenchmarking	—Unverified
Edge-First Language Model Inference: Models, Metrics, and Tradeoffs	May 22, 2025	BenchmarkingLanguage Modeling	—Unverified
EdgeMark: An Automation and Benchmarking System for Embedded Artificial Intelligence Tools	Feb 3, 2025	Benchmarking	—Unverified
EditVal: Benchmarking Diffusion Based Text-Guided Image Editing Methods	Oct 3, 2023	Benchmarkingtext-guided-image-editing	—Unverified
EEGS: A Transparent Model of Emotions	Nov 4, 2020	Benchmarkingmodel	—Unverified
EffCNet: An Efficient CondenseNet for Image Classification on NXP BlueBox	Nov 28, 2021	BenchmarkingClassification	—Unverified
Effective Evaluation of Deep Active Learning on Image Classification Tasks	Jun 16, 2021	Active LearningBenchmarking	—Unverified
Effective Transfer of Pretrained Large Visual Model for Fabric Defect Segmentation via Specifc Knowledge Injection	Jun 28, 2023	BenchmarkingDiversity	—Unverified
Efficacy of Synthetic Data as a Benchmark	Sep 18, 2024	BenchmarkingFew-Shot Learning	—Unverified
Efficiency in European Air Traffic Management -- A Fundamental Analysis of Data, Models, and Methods	Feb 15, 2023	BenchmarkingDecision Making	—Unverified
Efficient computation of backprojection arrays for 3D light field deconvolution	Mar 20, 2020	Benchmarking	—Unverified
Efficient and Accurate In-Database Machine Learning with SQL Code Generation in Python	Apr 7, 2021	BenchmarkingBIG-bench Machine Learning	—Unverified

Show:10 25 50

← PrevPage 119 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified