Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3701–3725 of 5548 papers

Title	Date	Tasks	Status
MSC-Bench: Benchmarking and Analyzing Multi-Sensor Corruption for Driving Perception	Jan 2, 2025	3D Object DetectionAutonomous Driving	—Unverified
Benchmarking five global optimization approaches for nano-optical shape optimization and parameter reconstruction	Sep 18, 2018	Bayesian OptimizationBenchmarking	—Unverified
MS MARCO: Benchmarking Ranking Models in the Large-Data Regime	May 9, 2021	Benchmarking	—Unverified
MSQA: Benchmarking LLMs on Graduate-Level Materials Science Reasoning and Knowledge	May 29, 2025	Benchmarking	—Unverified
Towards Robust and Generalizable Gerchberg Saxton based Physics Inspired Neural Networks for Computer Generated Holography: A Sensitivity Analysis Framework	Apr 30, 2025	BenchmarkingLearning Theory	—Unverified
Benchmarking federated strategies in Peer-to-Peer Federated learning for biomedical data	Feb 15, 2024	BenchmarkingFederated Learning	—Unverified
MTG: A Benchmarking Suite for Multilingual Text Generation	Oct 16, 2021	BenchmarkingQuestion Generation	—Unverified
Benchmarking Federated Machine Unlearning methods for Tabular Data	Apr 1, 2025	BenchmarkingComputational Efficiency	—Unverified
MTLens: Machine Translation Output Debugging	Jun 1, 2022	BenchmarkingMachine Translation	—Unverified
MTOP: A Comprehensive Multilingual Task-Oriented Semantic Parsing Benchmark	Aug 21, 2020	BenchmarkingSemantic Parsing	—Unverified
Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models	Jun 19, 2024	BenchmarkingOpen-Domain Question Answering	—Unverified
Benchmarking FedAvg and FedCurv for Image Classification Tasks	Mar 31, 2023	BenchmarkingClassification	—Unverified
Benchmarking Critical Questions Generation: A Challenging Reasoning Task for Large Language Models	May 16, 2025	Benchmarking	—Unverified
Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA	Jan 29, 2024	BenchmarkingImage Comprehension	—Unverified
Mukayese: Turkish NLP Strikes Back	Nov 16, 2021	BenchmarkingLanguage Modeling	—Unverified
Benchmarking features from different radiomics toolkits / toolboxes using Image Biomarkers Standardization Initiative	Jun 23, 2020	Benchmarking	—Unverified
Benchmarking Feature Extractors for Reinforcement Learning-Based Semiconductor Defect Localization	Nov 18, 2023	BenchmarkingDeep Reinforcement Learning	—Unverified
Benchmarking Expressive Japanese Character Text-to-Speech with VITS and Style-BERT-VITS2	May 22, 2025	BenchmarkingDialogue Generation	—Unverified
Multicalibration for Confidence Scoring in LLMs	Apr 6, 2024	BenchmarkingQuestion Answering	—Unverified
Multi-Camera Action Dataset for Cross-Camera Action Recognition Benchmarking	Jul 21, 2016	Action RecognitionBenchmarking	—Unverified
Multi-channel deep convolutional neural networks for multi-classifying thyroid disease	Mar 6, 2022	BenchmarkingBinary Classification	—Unverified
Benchmarking Explanatory Models for Inertia Forecasting using Public Data of the Nordic Area	Jul 14, 2023	BenchmarkingTime Series	—Unverified
Multiclass Optimal Classification Trees with SVM-splits	Nov 16, 2021	BenchmarkingClassification	—Unverified
Benchmarking Evolutionary Community Detection Algorithms in Dynamic Networks	Dec 21, 2023	BenchmarkingCommunity Detection	—Unverified
Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models	Dec 17, 2024	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 149 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified