Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3801–3825 of 5548 papers

Title	Date	Tasks	Status
Share, Collaborate, Benchmark: Advancing Travel Demand Research through rigorous open-source collaboration	Jun 9, 2023	BenchmarkingTime Series	—Unverified
Reference Matters: Benchmarking Factual Error Correction for Dialogue Summarization with Fine-grained Evaluation Framework	Jun 8, 2023	Benchmarking	CodeCode Available
FedSecurity: Benchmarking Attacks and Defenses in Federated Learning and Federated LLMs	Jun 8, 2023	BenchmarkingFederated Learning	CodeCode Available
DynamoRep: Trajectory-Based Population Dynamics for Classification of Black-box Optimization Problems	Jun 8, 2023	BenchmarkingDescriptive	CodeCode Available
FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems	Jun 8, 2023	BenchmarkingEdge-computing	—Unverified
DLAMA: A Framework for Curating Culturally Diverse Facts for Probing the Knowledge of Pretrained Language Models	Jun 8, 2023	BenchmarkingFairness	CodeCode Available
RD-Suite: A Benchmark for Ranking Distillation	Jun 7, 2023	Benchmarking	—Unverified
Self-Adjusting Weighted Expected Improvement for Bayesian Optimization	Jun 7, 2023	Bayesian OptimizationBenchmarking	CodeCode Available
Benchmarking Foundation Models with Language-Model-as-an-Examiner	Jun 7, 2023	BenchmarkingLanguage Modeling	—Unverified
ICON^2: Reliably Benchmarking Predictive Inequity in Object Detection	Jun 7, 2023	AttributeAutonomous Driving	—Unverified
Knowing-how & Knowing-that: A New Task for Machine Comprehension of User Manuals	Jun 7, 2023	BenchmarkingMachine Reading Comprehension	CodeCode Available
Improved statistical benchmarking of digital pathology models using pairwise frames evaluation	Jun 7, 2023	BenchmarkingClassification	—Unverified
Benchmarking Robustness of AI-Enabled Multi-sensor Fusion Systems: Challenges and Opportunities	Jun 6, 2023	BenchmarkingDepth Completion	—Unverified
Applying Standards to Advance Upstream & Downstream Ethics in Large Language Models	Jun 6, 2023	BenchmarkingEthics	—Unverified
Explainable AI using expressive Boolean formulas	Jun 6, 2023	BenchmarkingExplainable Artificial Intelligence (XAI)	—Unverified
Financial Numeric Extreme Labelling: A Dataset and Benchmarking for XBRL Tagging	Jun 6, 2023	BenchmarkingSentence	—Unverified
Benchmarking Middle-Trained Language Models for Neural Search	Jun 5, 2023	BenchmarkingLanguage Modeling	—Unverified
N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition	Jun 5, 2023	Arabic Speech RecognitionBenchmarking	—Unverified
MoviePuzzle: Visual Narrative Reasoning through Multimodal Order Learning	Jun 4, 2023	BenchmarkingContrastive Learning	—Unverified
EfficientSRFace: An Efficient Network with Super-Resolution Enhancement for Accurate Face Detection	Jun 4, 2023	BenchmarkingFace Detection	—Unverified
Benchmarking Robustness of Adaptation Methods on Pre-trained Vision-Language Models	Jun 3, 2023	Benchmarking	—Unverified
ACI-BENCH: a Novel Ambient Clinical Intelligence Dataset for Benchmarking Automatic Visit Note Generation	Jun 3, 2023	Benchmarking	—Unverified
Break a Lag: Triple Exponential Moving Average for Enhanced Optimization	Jun 2, 2023	Benchmarkingimage-classification	—Unverified
Hybrid Long Document Summarization using C2F-FAR and ChatGPT: A Practical Study	Jun 1, 2023	ArticlesBenchmarking	—Unverified
The Brain Tumor Segmentation (BraTS-METS) Challenge 2023: Brain Metastasis Segmentation on Pre-treatment MRI	Jun 1, 2023	BenchmarkingBrain Tumor Segmentation	—Unverified

Show:10 25 50

← PrevPage 153 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified