Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3126–3150 of 5548 papers

Title	Date	Tasks	Status
Benchmarking General-Purpose In-Context Learning	May 27, 2024	BenchmarkingDecision Making	—Unverified
GeneAgent: Self-verification Language Agent for Gene Set Knowledge Discovery using Domain Databases	May 25, 2024	BenchmarkingHallucination	—Unverified
BOLD: Boolean Logic Deep Learning	May 25, 2024	BenchmarkingDeep Learning	—Unverified
NuwaTS: a Foundation Model Mending Every Incomplete Time Series	May 24, 2024	BenchmarkingContrastive Learning	—Unverified
MCDFN: Supply Chain Demand Forecasting via an Explainable Multi-Channel Data Fusion Network Model	May 24, 2024	BenchmarkingDemand Forecasting	—Unverified
Application based Evaluation of an Efficient Spike-Encoder, "Spiketrum"	May 24, 2024	BenchmarkingClassification	—Unverified
Benchmarking the Performance of Pre-trained LLMs across Urdu NLP Tasks	May 24, 2024	BenchmarkingDecoder	—Unverified
Harnessing Large Language Models for Software Vulnerability Detection: A Comprehensive Benchmarking Study	May 24, 2024	BenchmarkingVulnerability Detection	—Unverified
Full-stack evaluation of Machine Learning inference workloads for RISC-V systems	May 24, 2024	BenchmarkingDeep Learning	—Unverified
Benchmarking Hierarchical Image Pyramid Transformer for the classification of colon biopsies and polyps in histopathology images	May 24, 2024	BenchmarkingClassification	—Unverified
Free Performance Gain from Mixing Multiple Partially Labeled Samples in Multi-label Image Classification	May 24, 2024	BenchmarkingData Augmentation	—Unverified
A Gap in Time: The Challenge of Processing Heterogeneous IoT Data in Digitalized Buildings	May 23, 2024	BenchmarkingData Integration	—Unverified
An Empirical Study of Training State-of-the-Art LiDAR Segmentation Models	May 23, 2024	Autonomous DrivingBenchmarking	—Unverified
CrossCheckGPT: Universal Hallucination Ranking for Multimodal Foundation Models	May 22, 2024	BenchmarkingHallucination	—Unverified
EXACT: Towards a platform for empirically benchmarking Machine Learning model explanation methods	May 20, 2024	BenchmarkingExplainable artificial intelligence	—Unverified
CT-Eval: Benchmarking Chinese Text-to-Table Performance in Large Language Models	May 20, 2024	BenchmarkingDiversity	—Unverified
DispaRisk: Auditing Fairness Through Usable Information	May 20, 2024	BenchmarkingBias Detection	CodeCode Available
EnviroExam: Benchmarking Environmental Science Knowledge of Large Language Models	May 18, 2024	BenchmarkingSpecificity	—Unverified
From Generalist to Specialist: Improving Large Language Models for Medical Physics Using ARCoT	May 17, 2024	BenchmarkingMultiple-choice	—Unverified
SMP Challenge: An Overview and Analysis of Social Media Prediction Challenge	May 17, 2024	BenchmarkingSocial Media Popularity Prediction	—Unverified
BraTS-Path Challenge: Assessing Heterogeneous Histopathologic Brain Tumor Sub-regions	May 17, 2024	BenchmarkingPrognosis	—Unverified
An Integrated Framework for Multi-Granular Explanation of Video Summarization	May 16, 2024	BenchmarkingPanoptic Segmentation	CodeCode Available
Simulation-Based Benchmarking of Reinforcement Learning Agents for Personalized Retail Promotions	May 16, 2024	BenchmarkingReinforcement Learning (RL)	CodeCode Available
A Robust Autoencoder Ensemble-Based Approach for Anomaly Detection in Text	May 16, 2024	Anomaly DetectionBenchmarking	—Unverified
SpeechVerse: A Large-scale Generalizable Audio Language Model	May 14, 2024	Automatic Speech RecognitionBenchmarking	—Unverified

Show:10 25 50

← PrevPage 126 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified