Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4451–4500 of 5548 papers

Title	Date	Tasks	Status
Assumed Identities: Quantifying Gender Bias in Machine Translation of Gender-Ambiguous Occupational Terms	Mar 6, 2025	BenchmarkingMachine Translation	—Unverified
Retrieval-Augmented Generation for Service Discovery: Chunking Strategies and Benchmarking	May 25, 2025	BenchmarkingChunking	—Unverified
Unsupervised Hierarchical Grouping of Knowledge Graph Entities	Aug 20, 2019	BenchmarkingKnowledge Graphs	—Unverified
AssistedDS: Benchmarking How External Domain Knowledge Assists LLMs in Automated Data Science	May 25, 2025	BenchmarkingFeature Engineering	—Unverified
Assessing the Utility of Audio Foundation Models for Heart and Respiratory Sound Analysis	Apr 25, 2025	Benchmarking	—Unverified
Assessing the risk of re-identification arising from an attack on anonymised data	Mar 31, 2022	Benchmarking	—Unverified
Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion	Jun 15, 2023	Benchmarkingcounterfactual	—Unverified
Review and experimental benchmarking of machine learning algorithms for efficient optimization of cold atom experiments	Dec 20, 2023	Benchmarking	—Unverified
Reviewing and Benchmarking Parameter Control Methods in Differential Evolution	Oct 2, 2020	Benchmarking	—Unverified
Categorization and analysis of 14 computational methods for estimating cell potency from single-cell RNA-seq data	Sep 24, 2023	Benchmarking	—Unverified
Unsupervised Learning of 3D Object Categories from Videos in the Wild	Mar 30, 2021	BenchmarkingMonocular Reconstruction	—Unverified
Unsupervised machine learning approach for building composite indicators with fuzzy metrics	Aug 15, 2022	Benchmarking	—Unverified
Multi-Agent Reinforcement Learning with Long-Term Performance Objectives for Service Workforce Optimization	Mar 3, 2025	BenchmarkingDecision Making	—Unverified
Assessing the efficacy of large language models in generating accurate teacher responses	Jul 9, 2023	BenchmarkingIn-Context Learning	—Unverified
Unsupervised Person Re-identification by Deep Learning Tracklet Association	Sep 8, 2018	BenchmarkingDeep Learning	—Unverified
Revisiting Implicit Models: Sparsity Trade-offs Capability in Weight-tied Model for Vision Tasks	Jul 16, 2023	Benchmarking	—Unverified
Assessing the Benchmarking Capacity of Machine Reading Comprehension Datasets	Nov 21, 2019	BenchmarkingMachine Reading Comprehension	—Unverified
Revisiting Oxford and Paris: Large-Scale Image Retrieval Benchmarking	Mar 29, 2018	BenchmarkingImage Retrieval	—Unverified
Assessing Foundation Models for Sea Ice Type Segmentation in Sentinel-1 SAR Imagery	Mar 28, 2025	BenchmarkingSegmentation	—Unverified
Assessing Encoder-Decoder Architectures for Robust Coronary Artery Segmentation	Oct 16, 2023	BenchmarkingCoronary Artery Segmentation	—Unverified
Revisiting Safe Exploration in Safe Reinforcement learning	Sep 2, 2024	Benchmarkingreinforcement-learning	—Unverified
ASR-FAIRBENCH: Measuring and Benchmarking Equity Across Speech Recognition Systems	May 16, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Spoofing Benchmark for the 2018 Voice Conversion Challenge: Leveraging from Spoofing Countermeasures for Speech Artifact Assessment	Apr 23, 2018	BenchmarkingSpeaker Verification	—Unverified
A Spiking Neural Network for Image Segmentation	Jun 16, 2021	BenchmarkingCPU	—Unverified
A Spatial Mapping Algorithm with Applications in Deep Learning-Based Structure Classification	Feb 7, 2018	Anomaly DetectionBenchmarking	—Unverified
On the Evaluation and Refinement of Vision-Language Instruction Tuning Datasets	Oct 10, 2023	AllBenchmarking	—Unverified
Rewarding Episodic Visitation Discrepancy for Exploration in Reinforcement Learning	Sep 19, 2022	Atari GamesBenchmarking	—Unverified
A Solid-State Nanopore Signal Generator for Training Machine Learning Models	Apr 7, 2025	BenchmarkingEvent Detection	—Unverified
RF Fingerprinting Needs Attention: Multi-task Approach for Real-World WiFi and Bluetooth	Sep 7, 2022	Benchmarking	—Unverified
A Simulation-Augmented Benchmarking Framework for Automatic RSO Streak Detection in Single-Frame Space Images	Apr 30, 2023	Benchmarkingobject-detection	—Unverified
Riemannian Geometry for the classification of brain states with intracortical brain-computer interfaces	Apr 7, 2025	BenchmarkingBrain Computer Interface	—Unverified
Riemannian Self-Attention Mechanism for SPD Networks	Nov 28, 2023	BenchmarkingRiemannian optimization	—Unverified
A Simple Evolutionary Algorithm for Multi-modal Multi-objective Optimization	Jan 18, 2022	Benchmarking	—Unverified
RISEdb: a Novel Indoor Localization Dataset	Jan 10, 2021	BenchmarkingIndoor Localization	—Unverified
Risk Aware Benchmarking of Large Language Models	Oct 11, 2023	BenchmarkingEconometrics	—Unverified
Risk-Neutral Generative Networks	May 28, 2024	Benchmarking	—Unverified
ASI: Accuracy-Stability Index for Evaluating Deep Learning Models	Nov 26, 2023	BenchmarkingDeep Learning	—Unverified
RL2Grid: Benchmarking Reinforcement Learning in Power Grid Operations	Mar 29, 2025	Benchmarkingreinforcement-learning	—Unverified
RL-Based Method for Benchmarking the Adversarial Resilience and Robustness of Deep Reinforcement Learning Policies	Jun 3, 2019	BenchmarkingDeep Reinforcement Learning	—Unverified
A Seven-Layer Model for Standardising AI Fairness Assessment	Dec 21, 2022	BenchmarkingFairness	—Unverified
A Sequence-to-Sequence Model for Semantic Role Labeling	Jul 9, 2018	BenchmarkingSemantic Role Labeling	—Unverified
A Semi-Automated Live Interlingual Communication Workflow Featuring Intralingual Respeaking: Evaluation and Benchmarking	Jun 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Scalable Approach to Benchmarking the In-Conversation Differential Diagnostic Accuracy of a Health AI	Dec 17, 2024	BenchmarkingChatbot	—Unverified
Artificial Intelligence for Microbiology and Microbiome Research	Nov 2, 2024	BenchmarkingDeep Learning	—Unverified
RNAmountAlign: efficient software for local, global, semiglobal pairwise and multiple RNA sequence/structure alignment	Aug 10, 2018	Benchmarking	—Unverified
A Comprehensive Guide to CAN IDS Data & Introduction of the ROAD Dataset	Dec 29, 2020	Anomaly DetectionBenchmarking	—Unverified
ARTeFACT: Benchmarking Segmentation Models on Diverse Analogue Media Damage	Dec 5, 2024	Benchmarking	—Unverified
ROBBIE: Robust Bias Evaluation of Large Generative Language Models	Nov 29, 2023	BenchmarkingFairness	—Unverified
OOD-CV: A Benchmark for Robustness to Out-of-Distribution Shifts of Individual Nuisances in Natural Images	Nov 29, 2021	3D Pose EstimationBenchmarking	—Unverified
A Robust Autoencoder Ensemble-Based Approach for Anomaly Detection in Text	May 16, 2024	Anomaly DetectionBenchmarking	—Unverified

Show:10 25 50

← PrevPage 90 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified