Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2826–2850 of 5548 papers

Title	Date	Tasks	Status
Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study	Sep 3, 2024	BenchmarkingHallucination	CodeCode Available
Benchmarking Cognitive Domains for LLMs: Insights from Taiwanese Hakka Culture	Sep 3, 2024	BenchmarkingRAG	—Unverified
From Grounding to Planning: Benchmarking Bottlenecks in Web Agents	Sep 3, 2024	Benchmarking	—Unverified
Revisiting Safe Exploration in Safe Reinforcement learning	Sep 2, 2024	Benchmarkingreinforcement-learning	—Unverified
Landscape-Aware Automated Algorithm Configuration using Multi-output Mixed Regression and Classification	Sep 2, 2024	Benchmarking	—Unverified
A practical generalization metric for deep networks benchmarking	Sep 2, 2024	BenchmarkingDiversity	—Unverified
Benchmarking LLM Code Generation for Audio Programming with Visual Dataflow Languages	Sep 1, 2024	BenchmarkingCode Generation	—Unverified
Accelerating the discovery of steady-states of planetary interior dynamics with machine learning	Aug 30, 2024	Benchmarking	—Unverified
SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists	Aug 30, 2024	BenchmarkingSentiment Analysis	CodeCode Available
Understanding the User: An Intent-Based Ranking Dataset	Aug 30, 2024	BenchmarkingInformation Retrieval	—Unverified
Benchmarking Japanese Speech Recognition on ASR-LLM Setups with Multi-Pass Augmented Generative Error Correction	Aug 29, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Illuminating the Diversity-Fitness Trade-Off in Black-Box Optimization	Aug 29, 2024	BenchmarkingDiversity	CodeCode Available
Benchmarking foundation models as feature extractors for weakly-supervised computational pathology	Aug 28, 2024	BenchmarkingDiversity	—Unverified
Atari-GPT: Benchmarking Multimodal Large Language Models as Low-Level Policies in Atari Games	Aug 28, 2024	Atari GamesBenchmarking	—Unverified
VHAKG: A Multi-modal Knowledge Graph Based on Synchronized Multi-view Videos of Daily Activities	Aug 27, 2024	BenchmarkingKnowledge Graphs	CodeCode Available
Applications in CityLearn Gym Environment for Multi-Objective Control Benchmarking in Grid-Interactive Buildings and Districts	Aug 27, 2024	BenchmarkingModel Predictive Control	—Unverified
Cross-subject Brain Functional Connectivity Analysis for Multi-task Cognitive State Evaluation	Aug 27, 2024	BenchmarkingDecision Making	—Unverified
Zero-Shot Visual Reasoning by Vision-Language Models: Benchmarking and Analysis	Aug 27, 2024	BenchmarkingLarge Language Model	—Unverified
Benchmarking Reinforcement Learning Methods for Dexterous Robotic Manipulation with a Three-Fingered Gripper	Aug 27, 2024	BenchmarkingReinforcement Learning (RL)	—Unverified
BOX3D: Lightweight Camera-LiDAR Fusion for 3D Object Detection and Localization	Aug 27, 2024	3D Object DetectionBenchmarking	—Unverified
FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting	Aug 27, 2024	BenchmarkingDecoder	CodeCode Available
K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences	Aug 26, 2024	Benchmarking	—Unverified
Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study	Aug 26, 2024	8kBenchmarking	—Unverified
Comparative Analysis: Violence Recognition from Videos using Transfer Learning	Aug 26, 2024	Action RecognitionBenchmarking	CodeCode Available
DHP Benchmark: Are LLMs Good NLG Evaluators?	Aug 25, 2024	Benchmarkingnlg evaluation	—Unverified

Show:10 25 50

← PrevPage 114 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified