Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2701–2725 of 5548 papers

Title	Date	Tasks	Status	Hype
Identifying patterns and recommendations of and for sustainable open data initiatives: a benchmarking-driven analysis of open government data initiatives among European countries	Dec 1, 2023	Benchmarking	—Unverified	0
Benchmarking and Enhancing Disentanglement in Concept-Residual Models	Nov 30, 2023	BenchmarkingDisentanglement	—Unverified	0
A Video is Worth 10,000 Words: Training and Benchmarking with Diverse Captions for Better Long Video Retrieval	Nov 30, 2023	BenchmarkingRetrieval	—Unverified	0
Event-based Continuous Color Video Decompression from Single Frames	Nov 30, 2023	Benchmarking	—Unverified	0
LucidDreaming: Controllable Object-Centric 3D Generation	Nov 30, 2023	3D GenerationBenchmarking	—Unverified	0
Enhancing Ligand Pose Sampling for Molecular Docking	Nov 30, 2023	BenchmarkingMolecular Docking	CodeCode Available	1
Controlgym: Large-Scale Control Environments for Benchmarking Reinforcement Learning Algorithms	Nov 30, 2023	BenchmarkingOpenAI Gym	CodeCode Available	1
TaskBench: Benchmarking Large Language Models for Task Automation	Nov 30, 2023	BenchmarkingParameter Prediction	CodeCode Available	6
Seg2Reg: Differentiable 2D Segmentation to 1D Regression Rendering for 360 Room Layout Reconstruction	Nov 30, 2023	Benchmarkingregression	—Unverified	0
AlignBench: Benchmarking Chinese Alignment of Large Language Models	Nov 30, 2023	Benchmarking	CodeCode Available	2
Z_2 Z_2 Equivariant Quantum Neural Networks: Benchmarking against Classical Neural Networks	Nov 30, 2023	BenchmarkingBinary Classification	CodeCode Available	0
Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy Evaluation	Nov 30, 2023	Benchmarkingcounterfactual	CodeCode Available	1
TransOpt: Transformer-based Representation Learning for Optimization Problem Classification	Nov 29, 2023	BenchmarkingClassification	—Unverified	0
Mixed-Precision Quantization for Federated Learning on Resource-Constrained Heterogeneous Devices	Nov 29, 2023	BenchmarkingFederated Learning	—Unverified	0
ROBBIE: Robust Bias Evaluation of Large Generative Language Models	Nov 29, 2023	BenchmarkingFairness	—Unverified	0
Biomedical knowledge graph-optimized prompt generation for large language models	Nov 29, 2023	BenchmarkingKnowledge Graphs	CodeCode Available	2
Enhancing Post-Hoc Explanation Benchmark Reliability for Image Classification	Nov 29, 2023	BenchmarkingDecision Making	—Unverified	0
SAIBench: A Structural Interpretation of AI for Science Through Benchmarks	Nov 29, 2023	BenchmarkingComputational Efficiency	—Unverified	0
Should we be going MAD? A Look at Multi-Agent Debate Strategies for LLMs	Nov 29, 2023	Benchmarking	CodeCode Available	1
UniIR: Training and Benchmarking Universal Multimodal Information Retrievers	Nov 28, 2023	BenchmarkingInformation Retrieval	—Unverified	0
SEED-Bench-2: Benchmarking Multimodal Large Language Models	Nov 28, 2023	BenchmarkingImage Generation	CodeCode Available	2
PAWS-VMK: A Unified Approach To Semi-Supervised Learning And Out-of-Distribution Detection	Nov 28, 2023	Benchmarkingimage-classification	—Unverified	0
Riemannian Self-Attention Mechanism for SPD Networks	Nov 28, 2023	BenchmarkingRiemannian optimization	—Unverified	0
FakeWatch ElectionShield: A Benchmarking Framework to Detect Fake News for Credible US Elections	Nov 27, 2023	ArticlesBenchmarking	—Unverified	0
Comprehensive Benchmarking of Entropy and Margin Based Scoring Metrics for Data Selection	Nov 27, 2023	Active LearningBenchmarking	—Unverified	0

Show:10 25 50

← PrevPage 109 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified