Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4376–4400 of 5548 papers

Title	Date	Tasks	Status
Rearrangement: A Challenge for Embodied AI	Nov 3, 2020	Benchmarking	—Unverified
Reasoning as a Resource: Optimizing Fast and Slow Thinking in Code Generation Models	Jun 11, 2025	BenchmarkingCode Generation	—Unverified
Re-assessing ImageNet: How aligned is its single-label assumption with its multi-label nature?	Dec 24, 2024	Benchmarking	—Unverified
A Comparative Analysis on Ethical Benchmarking in Large Language Models	Oct 11, 2024	BenchmarkingDecision Making	—Unverified
UniIR: Training and Benchmarking Universal Multimodal Information Retrievers	Nov 28, 2023	BenchmarkingInformation Retrieval	—Unverified
A Survey on Vision Autoregressive Model	Nov 13, 2024	3D GenerationBenchmarking	—Unverified
A Survey on Temporal Sentence Grounding in Videos	Sep 16, 2021	Action LocalizationBenchmarking	—Unverified
A Survey on Semi-Supervised Learning for Delayed Partially Labelled Data Streams	Jun 16, 2021	Active LearningBenchmarking	—Unverified
RECipe: Does a Multi-Modal Recipe Knowledge Graph Fit a Multi-Purpose Recommendation System?	Aug 8, 2023	BenchmarkingCollaborative Filtering	—Unverified
Recommendations for Baselines and Benchmarking Approximate Gaussian Processes	Feb 15, 2024	BenchmarkingGaussian Processes	—Unverified
Reconstructing antibody repertoires from error-prone immunosequencing datasets	Apr 24, 2017	Benchmarking	—Unverified
A Survey on Preserving Fairness Guarantees in Changing Environments	Nov 14, 2022	BenchmarkingDecision Making	—Unverified
A Survey on Model Compression for Large Language Models	Aug 15, 2023	BenchmarkingKnowledge Distillation	—Unverified
Uni-Render: A Unified Accelerator for Real-Time Rendering Across Diverse Neural Renderers	Mar 31, 2025	BenchmarkingNeural Rendering	—Unverified
A Survey on Masked Facial Detection Methods and Datasets for Fighting Against COVID-19	Jan 13, 2022	BenchmarkingLesion Segmentation	—Unverified
Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research	Dec 3, 2021	BenchmarkingBIG-bench Machine Learning	—Unverified
A Survey on LLM-based News Recommender Systems	Feb 13, 2025	BenchmarkingFairness	—Unverified
Unitail: Detecting, Reading, and Matching in Retail Scene	Apr 1, 2022	BenchmarkingDense Object Detection	—Unverified
A survey on efficient vision transformers: algorithms, techniques, and performance benchmarking	Sep 5, 2023	BenchmarkingKnowledge Distillation	—Unverified
A Survey of Spanish Clinical Language Models	Aug 4, 2023	BenchmarkingSurvey	—Unverified
Refer to Anything with Vision-Language Prompts	Jun 5, 2025	BenchmarkingGeneralized Referring Expression Segmentation	—Unverified
Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models	Mar 3, 2025	BenchmarkingInformation Retrieval	—Unverified
Unleashing OpenTitan's Potential: a Silicon-Ready Embedded Secure Element for Root of Trust and Cryptographic Offloading	Jun 17, 2024	Autonomous VehiclesBenchmarking	—Unverified
A Survey of Small Language Models	Oct 25, 2024	BenchmarkingModel Compression	—Unverified
Regularization of ML models for Earth systems by using longer model timesteps	Mar 23, 2025	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 176 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified