Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3376–3400 of 5548 papers

Title	Date	Tasks	Status
Advanced Manufacturing Configuration by Sample-efficient Batch Bayesian Optimization	May 24, 2022	Bayesian OptimizationBenchmarking	—Unverified
Line Goes Up? Inherent Limitations of Benchmarks for Evaluating Large Language Models	Feb 20, 2025	Benchmarking	—Unverified
Liquid State Genetic Programming	Dec 5, 2023	Benchmarking	—Unverified
Livestock Monitoring with Transformer	Nov 1, 2021	Action RecognitionBenchmarking	—Unverified
Benchmarking Multimodal Sentiment Analysis	Jul 29, 2017	BenchmarkingEmotion Recognition	—Unverified
LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education	Feb 9, 2024	BenchmarkingChatbot	—Unverified
LLAVIDAL: A Large LAnguage VIsion Model for Daily Activities of Living	Jun 13, 2024	BenchmarkingHuman-Object Interaction Detection	—Unverified
LLM4DV: Using Large Language Models for Hardware Test Stimuli Generation	Oct 6, 2023	BenchmarkingMathematical Reasoning	—Unverified
Benchmarking Multimodal Regex Synthesis with Complex Structures	May 2, 2020	Benchmarking	—Unverified
LLM-based Evaluation Policy Extraction for Ecological Modeling	May 20, 2025	BenchmarkingLarge Language Model	—Unverified
A War Beyond Deepfake: Benchmarking Facial Counterfeits and Countermeasures	Nov 25, 2021	BenchmarkingDeepFake Detection	—Unverified
Benchmarking Multimodal Models for Ukrainian Language Understanding Across Academic and Cultural Domains	Nov 22, 2024	BenchmarkingCaption Generation	—Unverified
A Distance Oriented Kalman Filter Particle Swarm Optimizer Applied to Multi-Modality Image Registration	Mar 20, 2018	BenchmarkingImage Registration	—Unverified
Benchmarking Multimodal Models for Fine-Grained Image Analysis: A Comparative Study Across Diverse Visual Features	Jan 14, 2025	Benchmarking	—Unverified
LLM Evaluators Recognize and Favor Their Own Generations	Apr 15, 2024	Benchmarking	—Unverified
Benchmarking Multimodal LLMs on Recognition and Understanding over Chemical Tables	Jun 13, 2025	BenchmarkingDescriptive	—Unverified
Benchmarking multimedia technologies with the CAMOMILE platform: the case of Multimodal Person Discovery at MediaEval 2015	May 1, 2016	Benchmarking	—Unverified
LLM-initialized Differentiable Causal Discovery	Oct 28, 2024	BenchmarkingCausal Discovery	—Unverified
Totally Corrective Boosting with Cardinality Penalization	Apr 7, 2015	BenchmarkingCombinatorial Optimization	—Unverified
Benchmarking Multi-Domain Active Learning on Image Classification	Dec 1, 2023	Active LearningAll	—Unverified
LLMPopcorn: An Empirical Study of LLMs as Assistants for Popular Micro-video Generation	Feb 18, 2025	BenchmarkingText Generation	—Unverified
LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study	Sep 13, 2024	BenchmarkingGrapheme-to-Phoneme Conversion	—Unverified
Incorporating Human Flexibility through Reward Preferences in Human-AI Teaming	Dec 21, 2023	Benchmarkingreinforcement-learning	—Unverified
Benchmarking Multi-Agent Deep Reinforcement Learning Algorithms	Jan 1, 2021	BenchmarkingDeep Reinforcement Learning	—Unverified
LLMs and Finetuning: Benchmarking cross-domain performance for hate speech detection	Oct 29, 2023	BenchmarkingDiversity	—Unverified

Show:10 25 50

← PrevPage 136 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified