Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3426–3450 of 5548 papers

Title	Date	Tasks	Status
MorisienMT: A Dataset for Mauritian Creole Machine Translation	Jun 6, 2022	BenchmarkingMachine Translation	—Unverified
Morphing Attack Detection -- Database, Evaluation Platform and Benchmarking	Jun 11, 2020	BenchmarkingFace Recognition	—Unverified
MORSE: Semantic-ally Drive-n MORpheme SEgment-er	Feb 7, 2017	Benchmarking	—Unverified
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models	Jan 6, 2025	BenchmarkingFeature Compression	—Unverified
Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level	Nov 15, 2024	Benchmarkingcounterfactual	—Unverified
Movie Description	May 12, 2016	Benchmarking	—Unverified
MoviePuzzle: Visual Narrative Reasoning through Multimodal Order Learning	Jun 4, 2023	BenchmarkingContrastive Learning	—Unverified
Moving Beyond Downstream Task Accuracy for Information Retrieval Benchmarking	Dec 2, 2022	BenchmarkingInformation Retrieval	—Unverified
MozzaVID: Mozzarella Volumetric Image Dataset	Dec 6, 2024	BenchmarkingComputed Tomography (CT)	—Unverified
MPCLeague: Robust MPC Platform for Privacy-Preserving Machine Learning	Dec 26, 2021	BenchmarkingBIG-bench Machine Learning	—Unverified
MRAnnotator: multi-Anatomy and many-Sequence MRI segmentation of 44 structures	Feb 1, 2024	AnatomyBenchmarking	—Unverified
MSAMSum: Towards Benchmarking Multi-lingual Dialogue Summarization	Nov 16, 2021	Benchmarkingdialogue summary	—Unverified
MSC-Bench: Benchmarking and Analyzing Multi-Sensor Corruption for Driving Perception	Jan 2, 2025	3D Object DetectionAutonomous Driving	—Unverified
MS MARCO: Benchmarking Ranking Models in the Large-Data Regime	May 9, 2021	Benchmarking	—Unverified
MSQA: Benchmarking LLMs on Graduate-Level Materials Science Reasoning and Knowledge	May 29, 2025	Benchmarking	—Unverified
MTG: A Benchmarking Suite for Multilingual Text Generation	Oct 16, 2021	BenchmarkingQuestion Generation	—Unverified
MTLens: Machine Translation Output Debugging	Jun 1, 2022	BenchmarkingMachine Translation	—Unverified
MTOP: A Comprehensive Multilingual Task-Oriented Semantic Parsing Benchmark	Aug 21, 2020	BenchmarkingSemantic Parsing	—Unverified
Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA	Jan 29, 2024	BenchmarkingImage Comprehension	—Unverified
Mukayese: Turkish NLP Strikes Back	Nov 16, 2021	BenchmarkingLanguage Modeling	—Unverified
Multicalibration for Confidence Scoring in LLMs	Apr 6, 2024	BenchmarkingQuestion Answering	—Unverified
Multi-Camera Action Dataset for Cross-Camera Action Recognition Benchmarking	Jul 21, 2016	Action RecognitionBenchmarking	—Unverified
Multi-channel deep convolutional neural networks for multi-classifying thyroid disease	Mar 6, 2022	BenchmarkingBinary Classification	—Unverified
Multiclass Optimal Classification Trees with SVM-splits	Nov 16, 2021	BenchmarkingClassification	—Unverified
Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models	Dec 17, 2024	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 138 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified