Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2451–2475 of 5548 papers

Title	Date	Tasks	Status
Benchmarking large language models for materials synthesis: the case of atomic layer deposition	Dec 13, 2024	BenchmarkingHallucination	—Unverified
Benchmarking of GPU-optimized Quantum-Inspired Evolutionary Optimization Algorithm using Functional Analysis	Dec 12, 2024	BenchmarkingGPU	—Unverified
JuStRank: Benchmarking LLM Judges for System Ranking	Dec 12, 2024	Benchmarking	—Unverified
Benchmarking LLMs for Mimicking Child-Caregiver Language in Interaction	Dec 12, 2024	BenchmarkingDiversity	—Unverified
Benchmarking Federated Learning for Semantic Datasets: Federated Scene Graph Generation	Dec 11, 2024	BenchmarkingFederated Learning	CodeCode Available
Koopman Theory-Inspired Method for Learning Time Advancement Operators in Unstable Flame Front Evolution	Dec 11, 2024	Benchmarking	—Unverified
Learn How to Query from Unlabeled Data Streams in Federated Learning	Dec 11, 2024	BenchmarkingDecision Making	CodeCode Available
LCFO: Long Context and Long Form Output Dataset and Benchmarking	Dec 11, 2024	BenchmarkingForm	—Unverified
Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions	Dec 11, 2024	BenchmarkingQuestion Answering	CodeCode Available
Benchmarking learned algorithms for computed tomography image reconstruction tasks	Dec 11, 2024	BenchmarkingComputed Tomography (CT)	—Unverified
A quantum-classical reinforcement learning model to play Atari games	Dec 11, 2024	Atari GamesBenchmarking	CodeCode Available
Light Field Image Quality Assessment With Auxiliary Learning Based on Depthwise and Anglewise Separable Convolutions	Dec 10, 2024	Auxiliary LearningBenchmarking	—Unverified
MoE-CAP: Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems	Dec 10, 2024	BenchmarkingMixture-of-Experts	—Unverified
Graph Neural Networks Are More Than Filters: Revisiting and Benchmarking from A Spectral Perspective	Dec 10, 2024	Benchmarking	CodeCode Available
Bilingual BSARD: Extending Statutory Article Retrieval to Dutch	Dec 10, 2024	ArticlesBenchmarking	CodeCode Available
Benchmarking Vision-Based Object Tracking for USVs in Complex Maritime Environments	Dec 10, 2024	Benchmarkingobject-detection	—Unverified
MO-IOHinspector: Anytime Benchmarking of Multi-Objective Algorithms using IOHprofiler	Dec 10, 2024	BenchmarkingExperimental Design	—Unverified
Towards Graph Foundation Models: A Study on the Generalization of Positional and Structural Encodings	Dec 10, 2024	BenchmarkingGraph Learning	—Unverified
OmniEvalKit: A Modular, Lightweight Toolbox for Evaluating Large Language Model and its Omni-Extensions	Dec 9, 2024	BenchmarkingLanguage Modeling	—Unverified
PediaBench: A Comprehensive Chinese Pediatric Dataset for Benchmarking Large Language Models	Dec 9, 2024	BenchmarkingInstruction Following	CodeCode Available
ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities	Dec 9, 2024	AllBenchmarking	—Unverified
On-Device Self-Supervised Learning of Low-Latency Monocular Depth from Only Events	Dec 9, 2024	BenchmarkingComputational Efficiency	—Unverified
Vision-Based Deep Reinforcement Learning of UAV Autonomous Navigation Using Privileged Information	Dec 9, 2024	Autonomous NavigationBenchmarking	—Unverified
How Certain are Uncertainty Estimates? Three Novel Earth Observation Datasets for Benchmarking Uncertainty Quantification in Machine Learning	Dec 9, 2024	BenchmarkingEarth Observation	—Unverified
Diff5T: Benchmarking Human Brain Diffusion MRI with an Extensive 5.0 Tesla K-Space and Spatial Dataset	Dec 9, 2024	BenchmarkingDiffusion MRI	—Unverified

Show:10 25 50

← PrevPage 99 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified