Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3701–3750 of 5548 papers

Title	Date	Tasks	Status
MSC-Bench: Benchmarking and Analyzing Multi-Sensor Corruption for Driving Perception	Jan 2, 2025	3D Object DetectionAutonomous Driving	—Unverified
Benchmarking five global optimization approaches for nano-optical shape optimization and parameter reconstruction	Sep 18, 2018	Bayesian OptimizationBenchmarking	—Unverified
MS MARCO: Benchmarking Ranking Models in the Large-Data Regime	May 9, 2021	Benchmarking	—Unverified
MSQA: Benchmarking LLMs on Graduate-Level Materials Science Reasoning and Knowledge	May 29, 2025	Benchmarking	—Unverified
Towards Robust and Generalizable Gerchberg Saxton based Physics Inspired Neural Networks for Computer Generated Holography: A Sensitivity Analysis Framework	Apr 30, 2025	BenchmarkingLearning Theory	—Unverified
Benchmarking federated strategies in Peer-to-Peer Federated learning for biomedical data	Feb 15, 2024	BenchmarkingFederated Learning	—Unverified
MTG: A Benchmarking Suite for Multilingual Text Generation	Oct 16, 2021	BenchmarkingQuestion Generation	—Unverified
Benchmarking Federated Machine Unlearning methods for Tabular Data	Apr 1, 2025	BenchmarkingComputational Efficiency	—Unverified
MTLens: Machine Translation Output Debugging	Jun 1, 2022	BenchmarkingMachine Translation	—Unverified
MTOP: A Comprehensive Multilingual Task-Oriented Semantic Parsing Benchmark	Aug 21, 2020	BenchmarkingSemantic Parsing	—Unverified
Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models	Jun 19, 2024	BenchmarkingOpen-Domain Question Answering	—Unverified
Benchmarking FedAvg and FedCurv for Image Classification Tasks	Mar 31, 2023	BenchmarkingClassification	—Unverified
Benchmarking Critical Questions Generation: A Challenging Reasoning Task for Large Language Models	May 16, 2025	Benchmarking	—Unverified
Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA	Jan 29, 2024	BenchmarkingImage Comprehension	—Unverified
Mukayese: Turkish NLP Strikes Back	Nov 16, 2021	BenchmarkingLanguage Modeling	—Unverified
Benchmarking features from different radiomics toolkits / toolboxes using Image Biomarkers Standardization Initiative	Jun 23, 2020	Benchmarking	—Unverified
Benchmarking Feature Extractors for Reinforcement Learning-Based Semiconductor Defect Localization	Nov 18, 2023	BenchmarkingDeep Reinforcement Learning	—Unverified
Benchmarking Expressive Japanese Character Text-to-Speech with VITS and Style-BERT-VITS2	May 22, 2025	BenchmarkingDialogue Generation	—Unverified
Multicalibration for Confidence Scoring in LLMs	Apr 6, 2024	BenchmarkingQuestion Answering	—Unverified
Multi-Camera Action Dataset for Cross-Camera Action Recognition Benchmarking	Jul 21, 2016	Action RecognitionBenchmarking	—Unverified
Multi-channel deep convolutional neural networks for multi-classifying thyroid disease	Mar 6, 2022	BenchmarkingBinary Classification	—Unverified
Benchmarking Explanatory Models for Inertia Forecasting using Public Data of the Nordic Area	Jul 14, 2023	BenchmarkingTime Series	—Unverified
Multiclass Optimal Classification Trees with SVM-splits	Nov 16, 2021	BenchmarkingClassification	—Unverified
Benchmarking Evolutionary Community Detection Algorithms in Dynamic Networks	Dec 21, 2023	BenchmarkingCommunity Detection	—Unverified
Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models	Dec 17, 2024	Benchmarking	—Unverified
Benchmarking Model Predictive Control Algorithms in Building Optimization Testing Framework (BOPTEST)	Jan 31, 2023	BenchmarkingModel Predictive Control	—Unverified
Multifactorial Cellular Genetic Algorithm (MFCGA): Algorithmic Design, Performance Comparison and Genetic Transferability Analysis	Mar 24, 2020	BenchmarkingTransfer Learning	—Unverified
Multi-Fidelity Methods for Optimization: A Survey	Feb 15, 2024	BenchmarkingComputational Efficiency	—Unverified
Benchmarking Evolutionary Algorithms For Single Objective Real-valued Constrained Optimization - A Critical Review	Jun 12, 2018	BenchmarkingEvolutionary Algorithms	—Unverified
Benchmarking Evaluation Metrics for Code-Switching Automatic Speech Recognition	Nov 22, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MultiHuman-Testbench: Benchmarking Image Generation for Multiple Humans	Jun 25, 2025	Action DetectionBenchmarking	—Unverified
Benchmarking Ethical and Safety Risks of Healthcare LLMs in China-Toward Systemic Governance under Healthy China 2030	May 12, 2025	BenchmarkingEthics	—Unverified
Multi-input Multi-output Loewner Framework for Vibration-based Damage Detection on a Trainer Jet	Oct 26, 2024	BenchmarkingCantilever Beam	—Unverified
Benchmarking Estimators for Natural Experiments: A Novel Dataset and a Doubly Robust Algorithm	Sep 6, 2024	Benchmarkingregression	—Unverified
Multi-label classification for biomedical literature: an overview of the BioCreative VII LitCovid Track for COVID-19 literature topic annotations	Apr 20, 2022	ArticlesBenchmarking	—Unverified
Benchmarking energy consumption and latency for neuromorphic computing in condensed matter and particle physics	Sep 21, 2022	Anomaly DetectionBenchmarking	—Unverified
Multilingual European Language Models: Benchmarking Approaches and Challenges	Feb 18, 2025	BenchmarkingQuestion Answering	—Unverified
Multilingual Large Language Models Are Not (Yet) Code-Switchers	May 23, 2023	BenchmarkingLanguage Identification	—Unverified
Multilingual Protest News Detection - Shared Task 1, CASE 2021	Aug 1, 2021	BenchmarkingDecision Making	—Unverified
Benchmarking Energy-Conserving Neural Networks for Learning Dynamics from Data	Dec 3, 2020	BenchmarkingInductive Bias	—Unverified
Benchmarking Energy and Latency in TinyML: A Novel Method for Resource-Constrained AI	May 21, 2025	Benchmarking	—Unverified
MultiMed: Massively Multimodal and Multitask Medical Understanding	Aug 22, 2024	BenchmarkingMedical Question Answering	—Unverified
Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models	Mar 1, 2024	BenchmarkingMathematical Reasoning	—Unverified
A Data-Driven Method to Identify IBRs with Dominant Participation in Sub-Synchronous Oscillations	May 20, 2025	Benchmarking	—Unverified
Towards Sentiment Analysis of Tobacco Products’ Usage in Social Media	Sep 1, 2021	BenchmarkingSentiment Analysis	—Unverified
Multimodal Deep Learning for Scientific Imaging Interpretation	Sep 21, 2023	ArticlesBenchmarking	—Unverified
Multimodal Deep Reinforcement Learning for Portfolio Optimization	Dec 23, 2024	ArticlesBenchmarking	—Unverified
Multi-Modal Explainable Medical AI Assistant for Trustworthy Human-AI Collaboration	May 11, 2025	BenchmarkingDescriptive	—Unverified
Benchmarking End-To-End Performance of AI-Based Chip Placement Algorithms	Jul 3, 2024	BenchmarkingCPU	—Unverified
Benchmarking End-to-end Learning of MIMO Physical-Layer Communication	May 19, 2020	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 75 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified