Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2401–2425 of 5548 papers

Title	Date	Tasks	Status
SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity	Dec 30, 2024	BenchmarkingCode Generation	—Unverified
Stratify: Unifying Multi-Step Forecasting Strategies	Dec 29, 2024	Benchmarking	—Unverified
On dataset transferability in medical image classification	Dec 28, 2024	BenchmarkingClassification	CodeCode Available
Towards Ideal Temporal Graph Neural Networks: Evaluations and Conclusions after 10,000 GPU Hours	Dec 28, 2024	BenchmarkingGPU	—Unverified
Machine Generated Product Advertisements: Benchmarking LLMs Against Human Performance	Dec 27, 2024	BenchmarkingPersuasiveness	—Unverified
How Propense Are Large Language Models at Producing Code Smells? A Benchmarking Study	Dec 25, 2024	BenchmarkingCode Generation	—Unverified
MixMAS: A Framework for Sampling-Based Mixer Architecture Search for Multimodal Fusion and Learning	Dec 24, 2024	Benchmarking	CodeCode Available
A Deep Reinforcement Learning Framework for Dynamic Portfolio Optimization: Evidence from China's Stock Market	Dec 24, 2024	BenchmarkingDecision Making	CodeCode Available
The Jungle of Generative Drug Discovery: Traps, Treasures, and Ways Out	Dec 24, 2024	BenchmarkingDeep Learning	—Unverified
Re-assessing ImageNet: How aligned is its single-label assumption with its multi-label nature?	Dec 24, 2024	Benchmarking	—Unverified
Benchmarking Generative AI Models for Deep Learning Test Input Generation	Dec 23, 2024	BenchmarkingDeep Learning	CodeCode Available
Multimodal Deep Reinforcement Learning for Portfolio Optimization	Dec 23, 2024	ArticlesBenchmarking	—Unverified
Chumor 2.0: Towards Benchmarking Chinese Humor Understanding	Dec 23, 2024	Benchmarking	CodeCode Available
Factuality or Fiction? Benchmarking Modern LLMs on Ambiguous QA with Citations	Dec 23, 2024	BenchmarkingQuestion Answering	—Unverified
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs	Dec 23, 2024	BenchmarkingLogical Reasoning	—Unverified
SCBench: A Sports Commentary Benchmark for Video LLMs	Dec 23, 2024	Benchmarking	—Unverified
Patherea: Cell Detection and Classification for the 2020s	Dec 21, 2024	BenchmarkingCell Detection	—Unverified
First-frame Supervised Video Polyp Segmentation via Propagative and Semantic Dual-teacher Network	Dec 21, 2024	BenchmarkingTransfer Learning	CodeCode Available
HammerBench: Fine-Grained Function-Calling Evaluation in Real Mobile Device Scenarios	Dec 21, 2024	Benchmarking	CodeCode Available
Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts	Dec 20, 2024	BenchmarkingOptical Character Recognition	CodeCode Available
TelcoLM: collecting data, adapting, and benchmarking language models for the telecommunication domain	Dec 20, 2024	Benchmarking	—Unverified
AI-generated Image Quality Assessment in Visual Communication	Dec 20, 2024	BenchmarkingImage Quality Assessment	CodeCode Available
Enriching Social Science Research via Survey Item Linking	Dec 20, 2024	BenchmarkingEntity Disambiguation	CodeCode Available
Benchmarking LLMs and SLMs for patient reported outcomes	Dec 20, 2024	BenchmarkingPrivacy Preserving	—Unverified
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage	Dec 20, 2024	AttributeBenchmarking	—Unverified

Show:10 25 50

← PrevPage 97 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified