Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2401–2450 of 5548 papers

Title	Date	Tasks	Status
UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI	Dec 30, 2024	BenchmarkingReinforcement Learning (RL)	—Unverified
Stratify: Unifying Multi-Step Forecasting Strategies	Dec 29, 2024	Benchmarking	—Unverified
Towards Ideal Temporal Graph Neural Networks: Evaluations and Conclusions after 10,000 GPU Hours	Dec 28, 2024	BenchmarkingGPU	—Unverified
On dataset transferability in medical image classification	Dec 28, 2024	BenchmarkingClassification	CodeCode Available
Machine Generated Product Advertisements: Benchmarking LLMs Against Human Performance	Dec 27, 2024	BenchmarkingPersuasiveness	—Unverified
How Propense Are Large Language Models at Producing Code Smells? A Benchmarking Study	Dec 25, 2024	BenchmarkingCode Generation	—Unverified
Re-assessing ImageNet: How aligned is its single-label assumption with its multi-label nature?	Dec 24, 2024	Benchmarking	—Unverified
The Jungle of Generative Drug Discovery: Traps, Treasures, and Ways Out	Dec 24, 2024	BenchmarkingDeep Learning	—Unverified
A Deep Reinforcement Learning Framework for Dynamic Portfolio Optimization: Evidence from China's Stock Market	Dec 24, 2024	BenchmarkingDecision Making	CodeCode Available
MixMAS: A Framework for Sampling-Based Mixer Architecture Search for Multimodal Fusion and Learning	Dec 24, 2024	Benchmarking	CodeCode Available
Benchmarking Generative AI Models for Deep Learning Test Input Generation	Dec 23, 2024	BenchmarkingDeep Learning	CodeCode Available
Chumor 2.0: Towards Benchmarking Chinese Humor Understanding	Dec 23, 2024	Benchmarking	CodeCode Available
SCBench: A Sports Commentary Benchmark for Video LLMs	Dec 23, 2024	Benchmarking	—Unverified
Factuality or Fiction? Benchmarking Modern LLMs on Ambiguous QA with Citations	Dec 23, 2024	BenchmarkingQuestion Answering	—Unverified
Multimodal Deep Reinforcement Learning for Portfolio Optimization	Dec 23, 2024	ArticlesBenchmarking	—Unverified
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs	Dec 23, 2024	BenchmarkingLogical Reasoning	—Unverified
First-frame Supervised Video Polyp Segmentation via Propagative and Semantic Dual-teacher Network	Dec 21, 2024	BenchmarkingTransfer Learning	CodeCode Available
Patherea: Cell Detection and Classification for the 2020s	Dec 21, 2024	BenchmarkingCell Detection	—Unverified
HammerBench: Fine-Grained Function-Calling Evaluation in Real Mobile Device Scenarios	Dec 21, 2024	Benchmarking	CodeCode Available
Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts	Dec 20, 2024	BenchmarkingOptical Character Recognition	CodeCode Available
TelcoLM: collecting data, adapting, and benchmarking language models for the telecommunication domain	Dec 20, 2024	Benchmarking	—Unverified
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage	Dec 20, 2024	AttributeBenchmarking	—Unverified
AI-generated Image Quality Assessment in Visual Communication	Dec 20, 2024	BenchmarkingImage Quality Assessment	CodeCode Available
Enriching Social Science Research via Survey Item Linking	Dec 20, 2024	BenchmarkingEntity Disambiguation	CodeCode Available
Benchmarking LLMs and SLMs for patient reported outcomes	Dec 20, 2024	BenchmarkingPrivacy Preserving	—Unverified
A Classification Benchmark for Artificial Intelligence Detection of Laryngeal Cancer from Patient Voice	Dec 20, 2024	BenchmarkingDiagnostic	CodeCode Available
Pitfalls of topology-aware image segmentation	Dec 19, 2024	BenchmarkingImage Segmentation	—Unverified
AntiLeak-Bench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge	Dec 18, 2024	BenchmarkingWorld Knowledge	CodeCode Available
Generation of Large District Heating System Models Using Open-Source Data and Tools: An Exemplary Workflow	Dec 18, 2024	Benchmarking	—Unverified
Mind Your Theory: Theory of Mind Goes Deeper Than Reasoning	Dec 18, 2024	BenchmarkingPosition	—Unverified
DateLogicQA: Benchmarking Temporal Biases in Large Language Models	Dec 17, 2024	Benchmarking	CodeCode Available
Selective Shot Learning for Code Explanation	Dec 17, 2024	Benchmarking	—Unverified
Benchmarking and Understanding Compositional Relational Reasoning of LLMs	Dec 17, 2024	BenchmarkingRelational Reasoning	CodeCode Available
C-FedRAG: A Confidential Federated Retrieval-Augmented Generation System	Dec 17, 2024	BenchmarkingRAG	—Unverified
AI PERSONA: Towards Life-long Personalization of LLMs	Dec 17, 2024	Benchmarking	—Unverified
A Scalable Approach to Benchmarking the In-Conversation Differential Diagnostic Accuracy of a Health AI	Dec 17, 2024	BenchmarkingChatbot	—Unverified
Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models	Dec 17, 2024	Benchmarking	—Unverified
ShiftedBronzes: Benchmarking and Analysis of Domain Fine-Grained Classification in Open-World Settings	Dec 17, 2024	Benchmarking	—Unverified
F-Bench: Rethinking Human Preference Evaluation Metrics for Benchmarking Face Generation, Customization, and Restoration	Dec 17, 2024	BenchmarkingFace Generation	—Unverified
SciFaultyQA: Benchmarking LLMs on Faulty Science Question Detection with a GAN-Inspired Approach to Synthetic Dataset Generation	Dec 16, 2024	BenchmarkingDataset Generation	CodeCode Available
PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension	Dec 16, 2024	BenchmarkingImage Captioning	—Unverified
QUENCH: Measuring the gap between Indic and Non-Indic Contextual General Reasoning in LLMs	Dec 16, 2024	BenchmarkingCommon Sense Reasoning	CodeCode Available
How Different AI Chatbots Behave? Benchmarking Large Language Models in Behavioral Economics Games	Dec 16, 2024	BenchmarkingChatbot	—Unverified
RoLargeSum: A Large Dialect-Aware Romanian News Dataset for Summary, Headline, and Keyword Generation	Dec 15, 2024	ArticlesBenchmarking	CodeCode Available
Benchmarking and Learning Multi-Dimensional Quality Evaluator for Text-to-3D Generation	Dec 15, 2024	3D GenerationBenchmarking	—Unverified
Sequence-Level Leakage Risk of Training Data in Large Language Models	Dec 15, 2024	Benchmarking	—Unverified
NoisyEQA: Benchmarking Embodied Question Answering Against Noisy Queries	Dec 14, 2024	BenchmarkingEmbodied Question Answering	—Unverified
CRS Arena: Crowdsourced Benchmarking of Conversational Recommender Systems	Dec 13, 2024	BenchmarkingRecommendation Systems	—Unverified
Benchmarking Table Comprehension In The Wild	Dec 13, 2024	BenchmarkingQuestion Answering	—Unverified
Benchmarking Linguistic Diversity of Large Language Models	Dec 13, 2024	BenchmarkingDiversity	CodeCode Available

Show:10 25 50

← PrevPage 49 of 111Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified