Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3026–3050 of 5548 papers

Title	Date	Tasks	Status
Ward: Provable RAG Dataset Inference via LLM Watermarks	Oct 4, 2024	BenchmarkingRAG	—Unverified
The Multi-speaker Multi-style Voice Cloning Challenge 2021	Apr 5, 2021	BenchmarkingVoice Cloning	—Unverified
PAWS-VMK: A Unified Approach To Semi-Supervised Learning And Out-of-Distribution Detection	Nov 28, 2023	Benchmarkingimage-classification	—Unverified
Improved statistical benchmarking of digital pathology models using pairwise frames evaluation	Jun 7, 2023	BenchmarkingClassification	—Unverified
The Neural Painter: Multi-Turn Image Generation	Jun 16, 2018	BenchmarkingConditional Image Generation	—Unverified
Improved YOLOv12 with LLM-Generated Synthetic Data for Enhanced Apple Detection and Benchmarking Against YOLOv11 and YOLOv10	Feb 26, 2025	Benchmarkingobject-detection	—Unverified
The ObjectFolder Benchmark: Multisensory Learning with Neural and Real Objects	Jun 1, 2023	BenchmarkingObject	—Unverified
A 28-nm Convolutional Neuromorphic Processor Enabling Online Learning with Spike-Based Retinas	May 13, 2020	BenchmarkingEdge-computing	—Unverified
Theory of Mind in Large Language Models: Examining Performance of 11 State-of-the-Art models vs. Children Aged 7-10 on Advanced Tests	Oct 31, 2023	Benchmarking	—Unverified
Improving 2D-3D Dense Correspondences with Diffusion Models for 6D Object Pose Estimation	Feb 9, 2024	6D Pose Estimation using RGBBenchmarking	—Unverified
Benchmarking terminology building capabilities of ChatGPT on an English-Russian Fashion Corpus	Dec 4, 2024	Benchmarking	—Unverified
Improving Augmentation and Evaluation Schemes for Semantic Image Synthesis	Nov 25, 2020	BenchmarkingData Augmentation	—Unverified
Improving Expert Radiology Report Summarization by Prompting Large Language Models with a Layperson Summary	Jun 20, 2024	BenchmarkingIn-Context Learning	—Unverified
Improving Few-Shot Cross-Domain Named Entity Recognition by Instruction Tuning a Word-Embedding based Retrieval Augmented Large Language Model	Nov 1, 2024	BenchmarkingCross-Domain Named Entity Recognition	—Unverified
The Oxford Spires Dataset: Benchmarking Large-Scale LiDAR-Visual Localisation, Reconstruction and Radiance Field Methods	Nov 15, 2024	3D ReconstructionBenchmarking	—Unverified
Improving Items and Contexts Understanding with Descriptive Graph for Conversational Recommendation	Apr 11, 2023	BenchmarkingConversational Recommendation	—Unverified
Improving Medical Image Classification with Label Noise Using Dual-uncertainty Estimation	Feb 28, 2021	BenchmarkingGeneral Classification	—Unverified
Improving Model Generalization: A Chinese Named Entity Recognition Case Study	Aug 1, 2021	BenchmarkingChinese Named Entity Recognition	—Unverified
Improving Named Entity Linking Corpora Quality	Sep 1, 2019	BenchmarkingEntity Linking	—Unverified
Improving plant disease classification by adaptive minimal ensembling	Sep 8, 2022	BenchmarkingClassification	—Unverified
The Paradox of Success in Evolutionary and Bioinspired Optimization: Revisiting Critical Issues, Key Studies, and Methodological Pathways	Jan 13, 2025	BenchmarkingMetaheuristic Optimization	—Unverified
Improving Reference-based Distinctive Image Captioning with Contrastive Rewards	Jun 25, 2023	BenchmarkingContrastive Learning	—Unverified
Improving seasonal forecast using probabilistic deep learning	Oct 27, 2020	BenchmarkingDeep Learning	—Unverified
The ParClusterers Benchmark Suite (PCBS): A Fine-Grained Analysis of Scalable Graph Clustering	Nov 15, 2024	BenchmarkingClustering	—Unverified
Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework	Jun 14, 2024	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 122 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified