Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3451–3500 of 5548 papers

Title	Date	Tasks	Status
Multifactorial Cellular Genetic Algorithm (MFCGA): Algorithmic Design, Performance Comparison and Genetic Transferability Analysis	Mar 24, 2020	BenchmarkingTransfer Learning	—Unverified
Multi-Fidelity Methods for Optimization: A Survey	Feb 15, 2024	BenchmarkingComputational Efficiency	—Unverified
MultiHuman-Testbench: Benchmarking Image Generation for Multiple Humans	Jun 25, 2025	Action DetectionBenchmarking	—Unverified
Multi-input Multi-output Loewner Framework for Vibration-based Damage Detection on a Trainer Jet	Oct 26, 2024	BenchmarkingCantilever Beam	—Unverified
Multi-label classification for biomedical literature: an overview of the BioCreative VII LitCovid Track for COVID-19 literature topic annotations	Apr 20, 2022	ArticlesBenchmarking	—Unverified
Multilingual European Language Models: Benchmarking Approaches and Challenges	Feb 18, 2025	BenchmarkingQuestion Answering	—Unverified
Multilingual Large Language Models Are Not (Yet) Code-Switchers	May 23, 2023	BenchmarkingLanguage Identification	—Unverified
Multilingual Protest News Detection - Shared Task 1, CASE 2021	Aug 1, 2021	BenchmarkingDecision Making	—Unverified
MultiMed: Massively Multimodal and Multitask Medical Understanding	Aug 22, 2024	BenchmarkingMedical Question Answering	—Unverified
Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models	Mar 1, 2024	BenchmarkingMathematical Reasoning	—Unverified
Multimodal Deep Learning for Scientific Imaging Interpretation	Sep 21, 2023	ArticlesBenchmarking	—Unverified
Multimodal Deep Reinforcement Learning for Portfolio Optimization	Dec 23, 2024	ArticlesBenchmarking	—Unverified
Multi-Modal Explainable Medical AI Assistant for Trustworthy Human-AI Collaboration	May 11, 2025	BenchmarkingDescriptive	—Unverified
Multimodal Information Retrieval for Open World with Edit Distance Weak Supervision	Jun 25, 2025	BenchmarkingInformation Retrieval	—Unverified
Multimodal or Text? Retrieval or BERT? Benchmarking Classifiers for the Shared Task on Hateful Memes	Aug 1, 2021	BenchmarkingBinary Classification	—Unverified
Multi-Modal Three-Stream Network for Action Recognition	Sep 8, 2019	Action ClassificationAction Recognition	—Unverified
MultiON: Benchmarking Semantic Map Memory using Multi-Object Navigation	Dec 7, 2020	BenchmarkingObject	—Unverified
LadderMIL: Multiple Instance Learning with Coarse-to-Fine Self-Distillation	Feb 4, 2025	BenchmarkingClassification	—Unverified
MultiRobustBench: Benchmarking Robustness Against Multiple Attacks	Feb 21, 2023	Benchmarking	—Unverified
MultiSocial: Multilingual Benchmark of Machine-Generated Text Detection of Social-Media Texts	Jun 18, 2024	ArticlesBenchmarking	—Unverified
MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic Parsing	Dec 27, 2022	BenchmarkingSemantic Parsing	—Unverified
Non-linear Multitask Learning with Deep Gaussian Processes	May 29, 2019	BenchmarkingGaussian Processes	—Unverified
Multivariate Stochastic Dominance via Optimal Transport and Applications to Models Benchmarking	Jun 10, 2024	BenchmarkingEconometrics	—Unverified
Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve Aerial Visual Perception?	Dec 7, 2023	BenchmarkingDiversity	—Unverified
Multi-view deep learning based molecule design and structural optimization accelerates the SARS-CoV-2 inhibitor discovery	Dec 3, 2022	BenchmarkingRepresentation Learning	—Unverified
MUPAX: Multidimensional Problem Agnostic eXplainable AI	Jul 17, 2025	Anatomical Landmark DetectionAudio Classification	—Unverified
MVS^2: Deep Unsupervised Multi-view Stereo with Multi-View Symmetry	Aug 30, 2019	Benchmarking	—Unverified
My Boli: Code-mixed Marathi-English Corpora, Pretrained Language Models and Evaluation Benchmarks	Jun 24, 2023	BenchmarkingHate Speech Detection	—Unverified
N^2: A Unified Python Package and Test Bench for Nearest Neighbor-Based Matrix Completion	Jun 4, 2025	BenchmarkingCausal Inference	—Unverified
NABU - Multilingual Graph-based Neural RDF Verbalizer	Sep 16, 2020	BenchmarkingDecoder	—Unverified
NAS-Bench-Zero: A Large Scale Dataset for Understanding Zero-Shot Neural Architecture Search	Sep 29, 2021	BenchmarkingNeural Architecture Search	—Unverified
NA-SODINN: a deep learning algorithm for exoplanet image detection based on residual noise regimes	Feb 6, 2023	BenchmarkingSpecificity	—Unverified
NativQA: Multilingual Culturally-Aligned Natural Query for LLMs	Jul 13, 2024	BenchmarkingQuestion Answering	—Unverified
Natural Disasters Detection in Social Media and Satellite imagery: a survey	Jan 14, 2019	Benchmarking	—Unverified
NATURAL PLAN: Benchmarking LLMs on Natural Language Planning	Jun 6, 2024	BenchmarkingScheduling	—Unverified
Nature-Inspired Optimization Algorithms: Challenges and Open Problems	Mar 8, 2020	Benchmarking	—Unverified
NavBench: A Unified Robotics Benchmark for Reinforcement Learning-Based Autonomous Navigation	May 20, 2025	Autonomous NavigationBenchmarking	—Unverified
Near-Term Quantum Computing Techniques: Variational Quantum Algorithms, Error Mitigation, Circuit Compilation, Benchmarking and Classical Simulation	Nov 16, 2022	Benchmarking	—Unverified
NeIn: Telling What You Don't Want	Sep 9, 2024	BenchmarkingNegation	—Unverified
NerfBaselines: Consistent and Reproducible Evaluation of Novel View Synthesis Methods	Jun 25, 2024	3DGSBenchmarking	—Unverified
Hyperparameter optimization with REINFORCE and Transformers	Jun 1, 2020	BenchmarkingHyperparameter Optimization	—Unverified
Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation	Dec 20, 2023	Benchmarking	—Unverified
Neural Network Approach for Non-Markovian Dissipative Dynamics of Many-Body Open Quantum Systems	Apr 17, 2024	BenchmarkingQuantization	—Unverified
GIM: Gaussian Isolation Machines	Feb 6, 2020	BenchmarkingGeneral Classification	—Unverified
Neural Networks for Fast Optimisation in Model Predictive Control: A Review	Sep 6, 2023	BenchmarkingModel Predictive Control	—Unverified
Neural Text Generation: Past, Present and Beyond	Mar 15, 2018	BenchmarkingDiversity	—Unverified
Neuromorphic Vision-based Motion Segmentation with Graph Transformer Neural Network	Apr 16, 2024	BenchmarkingMotion Segmentation	—Unverified
New Loss Functions for Fast Maximum Inner Product Search	Jan 1, 2020	BenchmarkingQuantization	—Unverified
NEWS 2018 Whitepaper	Jul 1, 2018	BenchmarkingMachine Translation	—Unverified
NEWTS: A Corpus for News Topic-Focused Summarization	May 31, 2022	BenchmarkingText Summarization	—Unverified

Show:10 25 50

← PrevPage 70 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified