Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3251–3275 of 5548 papers

Title	Date	Tasks	Status
LAMBDA: Covering the Solution Set of Black-Box Inequality by Search Space Quantization	Mar 25, 2022	BenchmarkingQuantization	—Unverified
Landscape-Aware Automated Algorithm Configuration using Multi-output Mixed Regression and Classification	Sep 2, 2024	Benchmarking	—Unverified
LanEvil: Benchmarking the Robustness of Lane Detection to Environmental Illusions	Jun 3, 2024	Autonomous DrivingBenchmarking	—Unverified
Time Sensitive Knowledge Editing through Efficient Finetuning	Jun 6, 2024	Benchmarkingknowledge editing	—Unverified
Language Complexity Measurement as a Noisy Zero-Shot Proxy for Evaluating LLM Performance	Feb 17, 2025	BenchmarkingDependency Parsing	—Unverified
Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance	Jul 18, 2024	Benchmarking	—Unverified
Benchmarking of Transformer-Based Pre-Trained Models on Social Media Text Classification Datasets	Dec 1, 2020	BenchmarkingClassification	—Unverified
Language Models for Automated Classification of Brain MRI Reports and Growth Chart Generation	Mar 15, 2025	Benchmarking	—Unverified
Can LLMs Capture Human Preferences?	May 4, 2023	Benchmarking	—Unverified
Adversarial Reinforcement Learning Framework for Benchmarking Collision Avoidance Mechanisms in Autonomous Vehicles	Jun 4, 2018	Autonomous NavigationAutonomous Vehicles	—Unverified
TIME: Temporal-sensitive Multi-dimensional Instruction Tuning and Benchmarking for Video-LLMs	Mar 13, 2025	BenchmarkingQuestion Answering	—Unverified
Time to Embrace Natural Language Processing (NLP)-based Digital Pathology: Benchmarking NLP- and Convolutional Neural Network-based Deep Learning Pipelines	Feb 21, 2023	Benchmarkingwhole slide images	—Unverified
Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning	Oct 3, 2024	BenchmarkingLanguage Modeling	—Unverified
Understanding Large Language Models in Your Pockets: Performance Study on COTS Mobile Devices	Oct 4, 2024	BenchmarkingLanguage Modeling	—Unverified
Benchmarking of LLM Detection: Comparing Two Competing Approaches	Jun 17, 2024	Benchmarking	—Unverified
Large Language Models are Null-Shot Learners	Jan 16, 2024	Arithmetic ReasoningBenchmarking	—Unverified
Large Language Models are Few-Shot Clinical Information Extractors	May 25, 2022	Benchmarkingcoreference-resolution	—Unverified
Large Language Models as Automated Aligners for benchmarking Vision-Language Models	Nov 24, 2023	BenchmarkingWorld Knowledge	—Unverified
Benchmarking of Lightweight Deep Learning Architectures for Skin Cancer Classification using ISIC 2017 Dataset	Oct 23, 2021	BenchmarkingCancer Classification	—Unverified
Adversarially Training for Audio Classifiers	Aug 26, 2020	Benchmarking	—Unverified
Large Language Models Have Intrinsic Meta-Cognition, but Need a Good Lens	Jun 10, 2025	BenchmarkingMathematical Reasoning	—Unverified
Benchmarking of GPU-optimized Quantum-Inspired Evolutionary Optimization Algorithm using Functional Analysis	Dec 12, 2024	BenchmarkingGPU	—Unverified
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level	Nov 5, 2024	Bayesian OptimisationBenchmarking	—Unverified
Large Malaysian Language Model Based on Mistral for Enhanced Local Language Understanding	Jan 24, 2024	BenchmarkingLanguage Modeling	—Unverified
Large Physics Models: Towards a collaborative approach with Large Language Models and Foundation Models	Jan 9, 2025	BenchmarkingPhilosophical Reflection	—Unverified

Show:10 25 50

← PrevPage 131 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified