Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1701–1725 of 5548 papers

Title	Date	Tasks	Status
Benchmarking Causal Study to Interpret Large Language Models for Source Code	Aug 23, 2023	BenchmarkingCausal Inference	—Unverified
Benchmarking Burst Super-Resolution for Polarization Images: Noise Dataset and Analysis	Mar 24, 2025	BenchmarkingImage Reconstruction	—Unverified
A new dataset of dog breed images and a benchmark for fine-grained classification	Oct 1, 2020	BenchmarkingClassification	—Unverified
Benchmarking Bonus-Based Exploration Methods on the Arcade Learning Environment	Aug 6, 2019	Atari GamesBenchmarking	—Unverified
Benchmarking BioRelEx for Entity Tagging and Relation Extraction	May 31, 2020	BenchmarkingRelation	—Unverified
A Deep Q-Learning Method for Downlink Power Allocation in Multi-Cell Networks	Apr 30, 2019	BenchmarkingDeep Reinforcement Learning	—Unverified
Development details and computational benchmarking of DEPAM	Mar 3, 2019	BenchmarkingDistributed Computing	—Unverified
Benchmarking Biopharmaceuticals Retrieval-Augmented Generation Evaluation	Apr 15, 2025	BenchmarkingQuestion Answering	—Unverified
Benchmarking Biomedical Nested NER and Relation Extraction Models	Oct 16, 2021	BenchmarkingNER	—Unverified
Deep Patent Landscaping Model Using Transformer and Graph Embedding	Mar 14, 2019	BenchmarkingGraph Embedding	—Unverified
Benchmarking Bias in Large Language Models during Role-Playing	Nov 1, 2024	BenchmarkingFairness	—Unverified
A New Approach for Image Authentication Framework for Media Forensics Purpose	Oct 3, 2021	AstronomyBenchmarking	—Unverified
Abnormality-Driven Representation Learning for Radiology Imaging	Nov 25, 2024	BenchmarkingContrastive Learning	—Unverified
Device Modeling Bias in ReRAM-based Neural Network Simulations	Nov 29, 2022	Benchmarking	—Unverified
Benchmarking bias: Expanding clinical AI model card to incorporate bias reporting of social and non-social factors	Nov 21, 2023	Benchmarking	—Unverified
An Evolutionary Algorithm For the Vehicle Routing Problem with Drones with Interceptions	Sep 21, 2024	BenchmarkingScheduling	—Unverified
Benchmarking Bayesian Deep Learning on Diabetic Retinopathy Detection Tasks	Nov 23, 2022	BenchmarkingDeep Learning	—Unverified
Benchmarking Bayesian Causal Discovery Methods for Downstream Treatment Effect Estimation	Jul 11, 2023	BenchmarkingCausal Discovery	—Unverified
An evaluation framework for comparing causal inference models	Aug 31, 2022	BenchmarkingCausal Inference	—Unverified
Benchmarking Azerbaijani Neural Machine Translation	Jul 29, 2022	BenchmarkingDomain Generalization	—Unverified
Benchmarking a wide range of optimisers for solving the Fermi-Hubbard model using the variational quantum eigensolver	Nov 20, 2024	Benchmarking	—Unverified
Benchmarking AutoML Frameworks for Disease Prediction Using Medical Claims	Jul 22, 2021	AutoMLBenchmarking	—Unverified
A deep convolutional neural network model for rapid prediction of fluvial flood inundation	Jun 20, 2020	BenchmarkingComputational Efficiency	—Unverified
Benchmarking Critical Questions Generation: A Challenging Reasoning Task for Large Language Models	May 16, 2025	Benchmarking	—Unverified
Dialogue Games for Benchmarking Language Understanding: Motivation, Taxonomy, Strategy	Apr 14, 2023	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 69 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified