Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4876–4900 of 5548 papers

Title	Date	Tasks	Status
MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation	Jan 9, 2024	BenchmarkingInteractive Segmentation	CodeCode Available
ferret: a Framework for Benchmarking Explainers on Transformers	Aug 2, 2022	BenchmarkingExplainable Artificial Intelligence (XAI)	CodeCode Available
Benchmarking Procedural Language Understanding for Low-Resource Languages: A Case Study on Turkish	Sep 13, 2023	BenchmarkingTranslation	CodeCode Available
FEET: A Framework for Evaluating Embedding Techniques	Nov 2, 2024	BenchmarkingRepresentation Learning	CodeCode Available
Benchmarking Probabilistic Deep Learning Methods for License Plate Recognition	Feb 2, 2023	BenchmarkingDeep Learning	CodeCode Available
Unraveling the Capabilities of Language Models in News Summarization	Jan 30, 2025	BenchmarkingFew-Shot Learning	CodeCode Available
mTSBench: Benchmarking Multivariate Time Series Anomaly Detection and Model Selection at Scale	Jun 26, 2025	Anomaly DetectionBenchmarking	CodeCode Available
FedNLP: Benchmarking Federated Learning Methods for Natural Language Processing Tasks	Apr 18, 2021	BenchmarkingFederated Learning	CodeCode Available
MUBen: Benchmarking the Uncertainty of Molecular Representation Models	Jun 14, 2023	BenchmarkingDrug Discovery	CodeCode Available
The Sounds of Home: A Speech-Removed Residential Audio Dataset for Sound Event Detection	Sep 17, 2024	BenchmarkingEvent Detection	CodeCode Available
WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection	Mar 13, 2020	Abuse DetectionBenchmarking	CodeCode Available
FedSecurity: Benchmarking Attacks and Defenses in Federated Learning and Federated LLMs	Jun 8, 2023	BenchmarkingFederated Learning	CodeCode Available
Fedivertex: a Graph Dataset based on Decentralized Social Networks for Trustworthy Machine Learning	May 27, 2025	Benchmarking	CodeCode Available
Feature interpretability in BCIs: exploring the role of network lateralization	Jul 16, 2024	BenchmarkingEEG	CodeCode Available
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves?	Oct 28, 2024	BenchmarkingQuestion Answering	CodeCode Available
Benchmarking pre-trained text embedding models in aligning built asset information	Nov 18, 2024	Asset ManagementBenchmarking	CodeCode Available
Benchmarking Pre-trained Language Models for Multilingual NER: TraSpaS at the BSNLP2021 Shared Task	Apr 1, 2021	BenchmarkingLanguage Modeling	CodeCode Available
Feature embedding in click-through rate prediction	Sep 20, 2022	BenchmarkingClick-Through Rate Prediction	CodeCode Available
Acoustic Identification of Ae. aegypti Mosquitoes using Smartphone Apps and Residual Convolutional Neural Networks	Jun 16, 2023	Benchmarking	CodeCode Available
FB-Bench: A Fine-Grained Multi-Task Benchmark for Evaluating LLMs' Responsiveness to Human Feedback	Oct 12, 2024	Benchmarking	CodeCode Available
Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis	Feb 18, 2025	BenchmarkingMamba	CodeCode Available
Multi-EuP: The Multilingual European Parliament Dataset for Analysis of Bias in Information Retrieval	Nov 3, 2023	BenchmarkingFairness	CodeCode Available
AuthNet: A Deep Learning based Authentication Mechanism using Temporal Facial Feature Movements	Dec 4, 2020	BenchmarkingLip password classification	CodeCode Available
Yesterday's News: Benchmarking Multi-Dimensional Out-of-Distribution Generalisation of Misinformation Detection Models	Oct 12, 2024	BenchmarkingMisinformation	CodeCode Available
FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting	Aug 27, 2024	BenchmarkingDecoder	CodeCode Available

Show:10 25 50

← PrevPage 196 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified