Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2001–2050 of 5548 papers

Title	Date	Tasks	Status
Cross-functional transferability in universal machine learning interatomic potentials	Apr 7, 2025	BenchmarkingTransfer Learning	—Unverified
Prism: Dynamic and Flexible Benchmarking of LLMs Code Generation with Monte Carlo Tree Search	Apr 7, 2025	BenchmarkingCode Generation	—Unverified
Subjective Visual Quality Assessment for High-Fidelity Learning-Based Image Compression	Apr 7, 2025	BenchmarkingImage Compression	CodeCode Available
Riemannian Geometry for the classification of brain states with intracortical brain-computer interfaces	Apr 7, 2025	BenchmarkingBrain Computer Interface	—Unverified
Generative Adversarial Networks with Limited Data: A Survey and Benchmarking	Apr 7, 2025	BenchmarkingImage Generation	—Unverified
A Solid-State Nanopore Signal Generator for Training Machine Learning Models	Apr 7, 2025	BenchmarkingEvent Detection	—Unverified
Towards Visual Text Grounding of Multimodal Large Language Model	Apr 7, 2025	BenchmarkingLanguage Modeling	—Unverified
SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models	Apr 7, 2025	Benchmarking	CodeCode Available
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs	Apr 7, 2025	BenchmarkingFairness	CodeCode Available
Leveraging State Space Models in Long Range Genomics	Apr 7, 2025	BenchmarkingGPU	—Unverified
Detecting Stereotypes and Anti-stereotypes the Correct Way Using Social Psychological Underpinnings	Apr 4, 2025	Benchmarking	CodeCode Available
Quantifying Robustness: A Benchmarking Framework for Deep Learning Forecasting in Cyber-Physical Systems	Apr 4, 2025	BenchmarkingModel Selection	CodeCode Available
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models	Apr 4, 2025	BenchmarkingImage Generation	—Unverified
Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency	Apr 4, 2025	BenchmarkingGSM8K	—Unverified
Do LLM Evaluators Prefer Themselves for a Reason?	Apr 4, 2025	BenchmarkingCode Generation	CodeCode Available
Can AI Master Construction Management (CM)? Benchmarking State-of-the-Art Large Language Models on CM Certification Exams	Apr 4, 2025	BenchmarkingManagement	—Unverified
Towards a Unified Framework for Determining Conformational Ensembles of Disordered Proteins	Apr 4, 2025	Benchmarking	—Unverified
Point Cloud Objective Quality: Benchmarking Features and Quality Evaluation	Apr 4, 2025	AttributeBenchmarking	—Unverified
Evaluating AI Recruitment Sourcing Tools by Human Preference	Apr 3, 2025	Benchmarking	CodeCode Available
Benchmark of Segmentation Techniques for Pelvic Fracture in CT and X-ray: Summary of the PENGWIN 2024 Challenge	Apr 3, 2025	AnatomyBenchmarking	—Unverified
Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries	Apr 2, 2025	BenchmarkingComputational Efficiency	—Unverified
When Reasoning Meets Compression: Benchmarking Compressed Large Reasoning Models on Complex Reasoning Tasks	Apr 2, 2025	BenchmarkingLanguage Modeling	—Unverified
Horizon Scans can be accelerated using novel information retrieval and artificial intelligence tools	Apr 2, 2025	Active LearningArticles	—Unverified
FIORD: A Fisheye Indoor-Outdoor Dataset with LIDAR Ground Truth for 3D Scene Reconstruction and Benchmarking	Apr 2, 2025	3D Scene ReconstructionBenchmarking	—Unverified
Proof of Humanity: A Multi-Layer Network Framework for Certifying Human-Originated Content in an AI-Dominated Internet	Apr 2, 2025	Benchmarking	—Unverified
Better Bill GPT: Comparing Large Language Models against Legal Invoice Reviewers	Apr 2, 2025	BenchmarkingManagement	—Unverified
Benchmarking the Spatial Robustness of DNNs via Natural and Adversarial Localized Corruptions	Apr 2, 2025	BenchmarkingSegmentation	—Unverified
Global Rice Multi-Class Segmentation Dataset (RiceSEG): A Comprehensive and Diverse High-Resolution RGB-Annotated Images for the Development and Benchmarking of Rice Segmentation Algorithms	Apr 2, 2025	BenchmarkingSemantic Segmentation	—Unverified
Benchmarking Federated Machine Unlearning methods for Tabular Data	Apr 1, 2025	BenchmarkingComputational Efficiency	—Unverified
TDBench: Benchmarking Vision-Language Models in Understanding Top-Down Images	Apr 1, 2025	Autonomous NavigationBenchmarking	CodeCode Available
Zero-shot Benchmarking: A Framework for Flexible and Scalable Automatic Evaluation of Language Models	Apr 1, 2025	Benchmarking	—Unverified
LOCO-EPI: Leave-one-chromosome-out (LOCO) as a benchmarking paradigm for deep learning based prediction of enhancer-promoter interactions	Apr 1, 2025	Benchmarking	CodeCode Available
Can LLMs Grasp Implicit Cultural Values? Benchmarking LLMs' Metacognitive Cultural Intelligence with CQ-Bench	Apr 1, 2025	Benchmarking	CodeCode Available
Scaling Up Resonate-and-Fire Networks for Fast Deep Learning	Apr 1, 2025	BenchmarkingDeep Learning	CodeCode Available
On Benchmarking Code LLMs for Android Malware Analysis	Apr 1, 2025	BenchmarkingMalware Analysis	—Unverified
Automated Factual Benchmarking for In-Car Conversational Systems using Large Language Models	Apr 1, 2025	BenchmarkingConversational Question Answering	—Unverified
Uni-Render: A Unified Accelerator for Real-Time Rendering Across Diverse Neural Renderers	Mar 31, 2025	BenchmarkingNeural Rendering	—Unverified
Towards Benchmarking and Assessing the Safety and Robustness of Autonomous Driving on Safety-critical Scenarios	Mar 31, 2025	Adversarial AttackAutonomous Driving	—Unverified
Benchmarking Systematic Relational Reasoning with Large Language and Reasoning Models	Mar 30, 2025	BenchmarkingRelational Reasoning	—Unverified
Simple Feedfoward Neural Networks are Almost All You Need for Time Series Forecasting	Mar 30, 2025	AllBenchmarking	—Unverified
RL2Grid: Benchmarking Reinforcement Learning in Power Grid Operations	Mar 29, 2025	Benchmarkingreinforcement-learning	—Unverified
Unsupervised Anomaly Detection in Multivariate Time Series across Heterogeneous Domains	Mar 29, 2025	Anomaly DetectionBenchmarking	CodeCode Available
CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis	Mar 29, 2025	BenchmarkingLarge Language Model	—Unverified
MHTS: Multi-Hop Tree Structure Framework for Generating Difficulty-Controllable QA Datasets for RAG Evaluation	Mar 29, 2025	Answer GenerationBenchmarking	—Unverified
Generalization Bias in Large Language Model Summarization of Scientific Research	Mar 28, 2025	BenchmarkingLanguage Modeling	—Unverified
An Advanced Ensemble Deep Learning Framework for Stock Price Prediction Using VAE, Transformer, and LSTM Model	Mar 28, 2025	Algorithmic TradingBenchmarking	—Unverified
LIM: Large Interpolator Model for Dynamic Reconstruction	Mar 28, 2025	4D reconstructionBenchmarking	—Unverified
Benchmarking Ultra-Low-Power μNPUs	Mar 28, 2025	Benchmarking	—Unverified
Assessing Foundation Models for Sea Ice Type Segmentation in Sentinel-1 SAR Imagery	Mar 28, 2025	BenchmarkingSegmentation	—Unverified
Why Stop at One Error? Benchmarking LLMs as Data Science Code Debuggers for Multi-Hop and Multi-Bug Errors	Mar 28, 2025	BenchmarkingCode Generation	CodeCode Available

Show:10 25 50

← PrevPage 41 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified