Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3251–3300 of 5548 papers

Title	Date	Tasks	Status
LAMBDA: Covering the Solution Set of Black-Box Inequality by Search Space Quantization	Mar 25, 2022	BenchmarkingQuantization	—Unverified
Landscape-Aware Automated Algorithm Configuration using Multi-output Mixed Regression and Classification	Sep 2, 2024	Benchmarking	—Unverified
LanEvil: Benchmarking the Robustness of Lane Detection to Environmental Illusions	Jun 3, 2024	Autonomous DrivingBenchmarking	—Unverified
Time Sensitive Knowledge Editing through Efficient Finetuning	Jun 6, 2024	Benchmarkingknowledge editing	—Unverified
Language Complexity Measurement as a Noisy Zero-Shot Proxy for Evaluating LLM Performance	Feb 17, 2025	BenchmarkingDependency Parsing	—Unverified
Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance	Jul 18, 2024	Benchmarking	—Unverified
Benchmarking of Transformer-Based Pre-Trained Models on Social Media Text Classification Datasets	Dec 1, 2020	BenchmarkingClassification	—Unverified
Language Models for Automated Classification of Brain MRI Reports and Growth Chart Generation	Mar 15, 2025	Benchmarking	—Unverified
Can LLMs Capture Human Preferences?	May 4, 2023	Benchmarking	—Unverified
Adversarial Reinforcement Learning Framework for Benchmarking Collision Avoidance Mechanisms in Autonomous Vehicles	Jun 4, 2018	Autonomous NavigationAutonomous Vehicles	—Unverified
TIME: Temporal-sensitive Multi-dimensional Instruction Tuning and Benchmarking for Video-LLMs	Mar 13, 2025	BenchmarkingQuestion Answering	—Unverified
Time to Embrace Natural Language Processing (NLP)-based Digital Pathology: Benchmarking NLP- and Convolutional Neural Network-based Deep Learning Pipelines	Feb 21, 2023	Benchmarkingwhole slide images	—Unverified
Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning	Oct 3, 2024	BenchmarkingLanguage Modeling	—Unverified
Understanding Large Language Models in Your Pockets: Performance Study on COTS Mobile Devices	Oct 4, 2024	BenchmarkingLanguage Modeling	—Unverified
Benchmarking of LLM Detection: Comparing Two Competing Approaches	Jun 17, 2024	Benchmarking	—Unverified
Large Language Models are Null-Shot Learners	Jan 16, 2024	Arithmetic ReasoningBenchmarking	—Unverified
Large Language Models are Few-Shot Clinical Information Extractors	May 25, 2022	Benchmarkingcoreference-resolution	—Unverified
Large Language Models as Automated Aligners for benchmarking Vision-Language Models	Nov 24, 2023	BenchmarkingWorld Knowledge	—Unverified
Benchmarking of Lightweight Deep Learning Architectures for Skin Cancer Classification using ISIC 2017 Dataset	Oct 23, 2021	BenchmarkingCancer Classification	—Unverified
Adversarially Training for Audio Classifiers	Aug 26, 2020	Benchmarking	—Unverified
Large Language Models Have Intrinsic Meta-Cognition, but Need a Good Lens	Jun 10, 2025	BenchmarkingMathematical Reasoning	—Unverified
Benchmarking of GPU-optimized Quantum-Inspired Evolutionary Optimization Algorithm using Functional Analysis	Dec 12, 2024	BenchmarkingGPU	—Unverified
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level	Nov 5, 2024	Bayesian OptimisationBenchmarking	—Unverified
Large Malaysian Language Model Based on Mistral for Enhanced Local Language Understanding	Jan 24, 2024	BenchmarkingLanguage Modeling	—Unverified
Large Physics Models: Towards a collaborative approach with Large Language Models and Foundation Models	Jan 9, 2025	BenchmarkingPhilosophical Reflection	—Unverified
Large-scale Benchmarking of Metaphor-based Optimization Heuristics	Feb 15, 2024	BenchmarkingExperimental Design	—Unverified
Benchmarking off-the-shelf statistical shape modeling tools in clinical applications	Sep 7, 2020	Benchmarking	—Unverified
Benchmarking Off-The-Shelf Solutions to Robotic Assembly Tasks	Mar 8, 2021	Benchmarking	—Unverified
Large-Scale Quantum Separability Through a Reproducible Machine Learning Lens	Jun 15, 2023	Benchmarking	—Unverified
Timing Excess Returns A cross-universe approach to alpha	Feb 11, 2020	BenchmarkingTime Series	—Unverified
Latency-aware Road Anomaly Segmentation in Videos: A Photorealistic Dataset and New Metrics	Jan 10, 2024	Anomaly SegmentationAutonomous Driving	—Unverified
Benchmarking Offline Reinforcement Learning Algorithms for E-Commerce Order Fraud Evaluation	Dec 5, 2022	BenchmarkingBinary Classification	—Unverified
Latent Variable Models for Visual Question Answering	Jan 16, 2021	BenchmarkingQuestion Answering	—Unverified
TinyML Platforms Benchmarking	Nov 30, 2021	Benchmarking	—Unverified
LAVIS: A Library for Language-Vision Intelligence	Sep 15, 2022	BenchmarkingImage Captioning	—Unverified
Benchmarking of English-Hindi parallel corpora	May 1, 2014	BenchmarkingMachine Translation	—Unverified
Benchmarking of eight recurrent neural network variants for breath phase and adventitious sound detection on a self-developed open-access lung sound database-HF_Lung_V1	Feb 5, 2021	Benchmarking	—Unverified
LayoutXLM vs. GNN: An Empirical Evaluation of Relation Extraction for Documents	May 9, 2022	BenchmarkingGraph Neural Network	—Unverified
Benchmarking of Different YOLO Models for CAPTCHAs Detection and Classification	Feb 19, 2025	Benchmarking	—Unverified
LCFO: Long Context and Long Form Output Dataset and Benchmarking	Dec 11, 2024	BenchmarkingForm	—Unverified
Benchmarking of Deep Learning models on 2D Laminar Flow behind Cylinder	May 26, 2022	BenchmarkingDeep Learning	—Unverified
LEAF: A Benchmark for Federated Settings	May 16, 2019	Autonomous VehiclesBenchmarking	—Unverified
Leaf Segmentation and Counting with Deep Learning: on Model Certainty, Test-Time Augmentation, Trade-Offs	Dec 21, 2020	BenchmarkingPlant Phenotyping	—Unverified
Labelling Vertebrae with 2D Reformations of Multidetector CT Images: An Adversarial Approach for Incorporating Prior Knowledge of Spine Anatomy	Feb 6, 2019	AnatomyBenchmarking	—Unverified
Adversarial Learning for Supervised and Semi-supervised Relation Extraction in Biomedical Literature	May 8, 2020	BenchmarkingRelation	—Unverified
Title2Event: Benchmarking Open Event Extraction with a Large-scale Chinese Title Dataset	Nov 2, 2022	BenchmarkingEvent Extraction	—Unverified
TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking	Feb 16, 2025	Benchmarking	—Unverified
Primender Sequence: A Novel Mathematical Construct for Testing Symbolic Inference and AI Reasoning	Jun 12, 2025	Benchmarking	—Unverified
Learning a CNN-based End-to-End Controller for a Formula SAE Racecar	Jul 12, 2017	BenchmarkingGPU	—Unverified
tmVar 3.0: an improved variant concept recognition and normalization tool	Apr 7, 2022	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 66 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified