Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3051–3075 of 5548 papers

Title	Date	Tasks	Status
Evaluating Music Recommender Systems for Groups	Jul 31, 2017	BenchmarkingRecommendation Systems	—Unverified
Evaluating Nuanced Bias in Large Language Model Free Response Answers	Jul 11, 2024	BenchmarkingLanguage Modeling	—Unverified
Evaluating Robustness of LLMs on Crisis-Related Microblogs across Events, Information Types, and Linguistic Features	Dec 8, 2024	Benchmarking	—Unverified
Evaluating Robustness of Visual Representations for Object Assembly Task Requiring Spatio-Geometrical Reasoning	Oct 15, 2023	BenchmarkingSpatial Reasoning	—Unverified
Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance	Mar 27, 2025	BenchmarkingImage Generation	—Unverified
Evaluating the Generation of Spatial Relations in Text and Image Generative Models	Nov 12, 2024	BenchmarkingImage Generation	—Unverified
Evaluating the Performance of Large Language Models via Debates	Jun 16, 2024	Benchmarking	—Unverified
Evaluating Visual Conversational Agents via Cooperative Human-AI Games	Aug 17, 2017	Benchmarking	—Unverified
Evaluation and Ensembling of Methods for Reverse Engineering of Brain Connectivity from Imaging Data	Mar 15, 2016	BenchmarkingCausal Discovery	—Unverified
Evaluation Methodology for Attacks Against Confidence Thresholding Models	May 1, 2019	Adversarial RobustnessBenchmarking	—Unverified
Evaluation Methods and Measures for Causal Learning Algorithms	Feb 7, 2022	BenchmarkingBIG-bench Machine Learning	—Unverified
Evaluation of Algorithms for Multi-Modality Whole Heart Segmentation: An Open-Access Grand Challenge	Feb 21, 2019	AnatomyBenchmarking	—Unverified
Evaluation of Architectural Synthesis Using Generative AI	Mar 4, 2025	Benchmarking	—Unverified
Evaluation of Human-AI Teams for Learned and Rule-Based Agents in Hanabi	Jul 15, 2021	BenchmarkingDeep Reinforcement Learning	—Unverified
Evaluation of Popular XAI Applied to Clinical Prediction Models: Can They be Trusted?	Jun 21, 2023	BenchmarkingExplainable artificial intelligence	—Unverified
Evaluation of simulation methods for tumor subclonal reconstruction	Feb 14, 2024	Benchmarking	—Unverified
Evaluation of Three Welsh Language POS Taggers	Jun 1, 2022	BenchmarkingPOS	—Unverified
EvAnimate: Event-conditioned Image-to-Video Generation for Human Animation	Mar 24, 2025	BenchmarkingData Augmentation	—Unverified
EventAid: Benchmarking Event-aided Image/Video Enhancement Algorithms with Real-captured Hybrid Dataset	Dec 13, 2023	BenchmarkingDeblurring	—Unverified
Event-based Continuous Color Video Decompression from Single Frames	Nov 30, 2023	Benchmarking	—Unverified
Event-based Feature Extraction Using Adaptive Selection Thresholds	Jul 18, 2019	Benchmarking	—Unverified
Event Camera Simulator Design for Modeling Attention-based Inference Architectures	May 3, 2021	Benchmarking	—Unverified
Eventprop training for efficient neuromorphic applications	Mar 6, 2025	BenchmarkingGPU	—Unverified
EvEntS ReaLM: Event Reasoning of Entity States via Language Models	Nov 10, 2022	Benchmarking	—Unverified
Evetac: An Event-based Optical Tactile Sensor for Robotic Manipulation	Dec 2, 2023	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 123 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified