Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 576–600 of 5548 papers

Title	Date	Tasks	Status	Hype
Benchmarking Mutual Information-based Loss Functions in Federated Learning	Apr 16, 2025	BenchmarkingFairness	—Unverified	0
Benchmarking Audio Deepfake Detection Robustness in Real-world Communication Scenarios	Apr 16, 2025	Audio Deepfake DetectionBenchmarking	—Unverified	0
Power Line Communication vs. Talkative Power Conversion: A Benchmarking Study	Apr 16, 2025	Benchmarking	—Unverified	0
Causality-enhanced Decision-Making for Autonomous Mobile Robots in Dynamic Environments	Apr 16, 2025	BenchmarkingCausal Inference	CodeCode Available	0
Continual Learning Strategies for 3D Engineering Regression Problems: A Benchmarking Study	Apr 16, 2025	BenchmarkingContinual Learning	CodeCode Available	0
REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites	Apr 15, 2025	Autonomous Web NavigationBenchmarking	CodeCode Available	3
Benchmarking Biopharmaceuticals Retrieval-Augmented Generation Evaluation	Apr 15, 2025	BenchmarkingQuestion Answering	—Unverified	0
GaSLight: Gaussian Splats for Spatially-Varying Lighting in HDR	Apr 15, 2025	Benchmarking	—Unverified	0
HypoBench: Towards Systematic and Principled Benchmarking for Hypothesis Generation	Apr 15, 2025	Benchmarkingscientific discovery	CodeCode Available	2
Mamba-Based Ensemble learning for White Blood Cell Classification	Apr 15, 2025	BenchmarkingClassification	CodeCode Available	0
Benchmarking Next-Generation Reasoning-Focused Large Language Models in Ophthalmology: A Head-to-Head Evaluation on 5,888 Items	Apr 15, 2025	BenchmarkingMultiple-choice	—Unverified	0
CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives	Apr 15, 2025	Benchmarking	—Unverified	0
E2E Parking Dataset: An Open Benchmark for End-to-End Autonomous Parking	Apr 15, 2025	BenchmarkingPosition	—Unverified	0
FHBench: Towards Efficient and Personalized Federated Learning for Multimodal Healthcare	Apr 15, 2025	BenchmarkingDiagnostic	CodeCode Available	0
Benchmarking Vision Language Models on German Factual Data	Apr 15, 2025	Benchmarking	—Unverified	0
BEACON: A Benchmark for Efficient and Accurate Counting of Subgraphs	Apr 15, 2025	BenchmarkingSubgraph Counting	—Unverified	0
BoTTA: Benchmarking on-device Test Time Adaptation	Apr 14, 2025	BenchmarkingTest-time Adaptation	—Unverified	0
Foundation Models for Remote Sensing: An Analysis of MLLMs for Object Localization	Apr 14, 2025	BenchmarkingEarth Observation	—Unverified	0
COUNTS: Benchmarking Object Detectors and Multimodal Large Language Models under Distribution Shifts	Apr 14, 2025	BenchmarkingObject	—Unverified	0
LMFormer: Lane based Motion Prediction Transformer	Apr 14, 2025	Autonomous DrivingBenchmarking	—Unverified	0
Benchmarking 3D Human Pose Estimation Models Under Occlusions	Apr 14, 2025	3D Human Pose EstimationBenchmarking	—Unverified	0
CameraBench: Benchmarking Visual Reasoning in MLLMs via Photography	Apr 14, 2025	BenchmarkingVisual Reasoning	—Unverified	0
TinyverseGP: Towards a Modular Cross-domain Benchmarking Framework for Genetic Programming	Apr 14, 2025	BenchmarkingProgram Synthesis	CodeCode Available	1
Beyond Chains of Thought: Benchmarking Latent-Space Reasoning Abilities in Large Language Models	Apr 14, 2025	BenchmarkingDescriptive	—Unverified	0
Trade-offs in Privacy-Preserving Eye Tracking through Iris Obfuscation: A Benchmarking Study	Apr 14, 2025	BenchmarkingGaze Estimation	CodeCode Available	0

Show:10 25 50

← PrevPage 24 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified