Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3226–3250 of 5548 papers

Title	Date	Tasks	Status
Generalization Bias in Large Language Model Summarization of Scientific Research	Mar 28, 2025	BenchmarkingLanguage Modeling	—Unverified
Generalization, Mayhems and Limits in Recurrent Proximal Policy Optimization	May 23, 2022	BenchmarkingDeep Reinforcement Learning	—Unverified
Generalized Attention Flow: Feature Attribution for Transformer Models via Maximum Flow	Feb 14, 2025	Benchmarking	—Unverified
Generalized Conflict-directed Search for Optimal Ordering Problems	Mar 31, 2021	BenchmarkingScheduling	—Unverified
Generalizing Vision-Language Models to Novel Domains: A Comprehensive Survey	Jun 23, 2025	BenchmarkingSurvey	—Unverified
General Scales Unlock AI Evaluation with Explanatory and Predictive Power	Mar 9, 2025	BenchmarkingSpecificity	—Unverified
Generating Artificial Outliers in the Absence of Genuine Ones -- a Survey	Jun 5, 2020	BenchmarkingExperimental Design	—Unverified
Generating Automotive Code: Large Language Models for Software Development and Verification in Safety-Critical Systems	Jun 4, 2025	BenchmarkingCode Generation	—Unverified
Generating Diverse Synthetic Datasets for Evaluation of Real-life Recommender Systems	Nov 27, 2024	AutoMLBenchmarking	—Unverified
Hierarchical Data Generator based on Tree-Structured Stick Breaking Process for Benchmarking Clustering Methods	Jun 17, 2016	BenchmarkingClustering	—Unverified
Generating Synthetic Electronic Health Record (EHR) Data: A Review with Benchmarking	Nov 6, 2024	Benchmarking	—Unverified
Generation of Large District Heating System Models Using Open-Source Data and Tools: An Exemplary Workflow	Dec 18, 2024	Benchmarking	—Unverified
Synthetic Observational Health Data with GANs: from slow adoption to a boom in medical research and ultimately digital twins?	May 27, 2020	BenchmarkingFraud Detection	—Unverified
Generative Adversarial Networks with Limited Data: A Survey and Benchmarking	Apr 7, 2025	BenchmarkingImage Generation	—Unverified
Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors	Jun 29, 2023	Benchmarking	—Unverified
Generative AI for Synthetic Data Across Multiple Medical Modalities: A Systematic Review of Recent Developments and Challenges	Jun 27, 2024	BenchmarkingClinical Knowledge	—Unverified
Learning Dynamic Feature Selection for Fast Sequential Prediction	May 22, 2015	BenchmarkingDependency Parsing	—Unverified
Learning Environment Models with Continuous Stochastic Dynamics	Jun 29, 2023	AcrobotBenchmarking	—Unverified
Learning Graphs for Knowledge Transfer With Limited Labels	Jun 19, 2021	Action RecognitionBenchmarking	—Unverified
Learning Hidden Physics and System Parameters with Deep Operator Networks	Dec 6, 2024	BenchmarkingUncertainty Quantification	—Unverified
Learning Multimorbidity Patterns from Electronic Health Records Using Non-negative Matrix Factorisation	Jul 19, 2019	Benchmarking	—Unverified
Benchmarking Augmentation Methods for Learning Robust Navigation Agents: the Winning Entry of the 2021 iGibson Challenge	Sep 22, 2021	BenchmarkingData Augmentation	—Unverified
Learning to Adapt to Online Streams with Distribution Shifts	Mar 2, 2023	BenchmarkingMeta-Learning	—Unverified
Realistic Large-Scale Fine-Depth Dehazing Dataset from 3D Videos	Apr 18, 2020	Autonomous DrivingBenchmarking	—Unverified
Learning to Disambiguate by Asking Discriminative Questions	Aug 9, 2017	BenchmarkingImage Captioning	—Unverified

Show:10 25 50

← PrevPage 130 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified