Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2001–2025 of 5548 papers

Title	Date	Tasks	Status
Leveraging State Space Models in Long Range Genomics	Apr 7, 2025	BenchmarkingGPU	—Unverified
Cross-functional transferability in universal machine learning interatomic potentials	Apr 7, 2025	BenchmarkingTransfer Learning	—Unverified
Generative Adversarial Networks with Limited Data: A Survey and Benchmarking	Apr 7, 2025	BenchmarkingImage Generation	—Unverified
Prism: Dynamic and Flexible Benchmarking of LLMs Code Generation with Monte Carlo Tree Search	Apr 7, 2025	BenchmarkingCode Generation	—Unverified
Subjective Visual Quality Assessment for High-Fidelity Learning-Based Image Compression	Apr 7, 2025	BenchmarkingImage Compression	CodeCode Available
Riemannian Geometry for the classification of brain states with intracortical brain-computer interfaces	Apr 7, 2025	BenchmarkingBrain Computer Interface	—Unverified
A Solid-State Nanopore Signal Generator for Training Machine Learning Models	Apr 7, 2025	BenchmarkingEvent Detection	—Unverified
SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models	Apr 7, 2025	Benchmarking	CodeCode Available
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs	Apr 7, 2025	BenchmarkingFairness	CodeCode Available
Towards Visual Text Grounding of Multimodal Large Language Model	Apr 7, 2025	BenchmarkingLanguage Modeling	—Unverified
Do LLM Evaluators Prefer Themselves for a Reason?	Apr 4, 2025	BenchmarkingCode Generation	CodeCode Available
Point Cloud Objective Quality: Benchmarking Features and Quality Evaluation	Apr 4, 2025	AttributeBenchmarking	—Unverified
Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency	Apr 4, 2025	BenchmarkingGSM8K	—Unverified
Detecting Stereotypes and Anti-stereotypes the Correct Way Using Social Psychological Underpinnings	Apr 4, 2025	Benchmarking	CodeCode Available
Can AI Master Construction Management (CM)? Benchmarking State-of-the-Art Large Language Models on CM Certification Exams	Apr 4, 2025	BenchmarkingManagement	—Unverified
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models	Apr 4, 2025	BenchmarkingImage Generation	—Unverified
Towards a Unified Framework for Determining Conformational Ensembles of Disordered Proteins	Apr 4, 2025	Benchmarking	—Unverified
Quantifying Robustness: A Benchmarking Framework for Deep Learning Forecasting in Cyber-Physical Systems	Apr 4, 2025	BenchmarkingModel Selection	CodeCode Available
Benchmark of Segmentation Techniques for Pelvic Fracture in CT and X-ray: Summary of the PENGWIN 2024 Challenge	Apr 3, 2025	AnatomyBenchmarking	—Unverified
Evaluating AI Recruitment Sourcing Tools by Human Preference	Apr 3, 2025	Benchmarking	CodeCode Available
Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries	Apr 2, 2025	BenchmarkingComputational Efficiency	—Unverified
Global Rice Multi-Class Segmentation Dataset (RiceSEG): A Comprehensive and Diverse High-Resolution RGB-Annotated Images for the Development and Benchmarking of Rice Segmentation Algorithms	Apr 2, 2025	BenchmarkingSemantic Segmentation	—Unverified
Horizon Scans can be accelerated using novel information retrieval and artificial intelligence tools	Apr 2, 2025	Active LearningArticles	—Unverified
When Reasoning Meets Compression: Benchmarking Compressed Large Reasoning Models on Complex Reasoning Tasks	Apr 2, 2025	BenchmarkingLanguage Modeling	—Unverified
FIORD: A Fisheye Indoor-Outdoor Dataset with LIDAR Ground Truth for 3D Scene Reconstruction and Benchmarking	Apr 2, 2025	3D Scene ReconstructionBenchmarking	—Unverified

Show:10 25 50

← PrevPage 81 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified