Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1726–1750 of 5548 papers

Title	Date	Tasks	Status
So-Fake: Benchmarking and Explaining Social Media Image Forgery Detection	May 24, 2025	BenchmarkingImage Forgery Detection	—Unverified
Towards Emotionally Consistent Text-Based Speech Editing: Introducing EmoCorrector and The ECD-TSE Dataset	May 24, 2025	BenchmarkingRAG	CodeCode Available
Benchmarking Poisoning Attacks against Retrieval-Augmented Generation	May 24, 2025	BenchmarkingQuestion Answering	—Unverified
From Generation to Detection: A Multimodal Multi-Task Dataset for Benchmarking Health Misinformation	May 24, 2025	ArticlesBenchmarking	—Unverified
LogicCat: A Chain-of-Thought Text-to-SQL Benchmark for Multi-Domain Reasoning Challenges	May 24, 2025	BenchmarkingMathematical Reasoning	CodeCode Available
SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models	May 24, 2025	BenchmarkingVideo Grounding	—Unverified
A Position Paper on the Automatic Generation of Machine Learning Leaderboards	May 23, 2025	BenchmarkingPosition	CodeCode Available
SEvoBench : A C++ Framework For Evolutionary Single-Objective Optimization Benchmarking	May 23, 2025	BenchmarkingComputational Efficiency	—Unverified
Wildfire spread forecasting with Deep Learning	May 23, 2025	BenchmarkingDeep Learning	CodeCode Available
PerMedCQA: Benchmarking Large Language Models on Medical Consumer Question Answering in Persian Language	May 23, 2025	BenchmarkingQuestion Answering	—Unverified
Chart-to-Experience: Benchmarking Multimodal LLMs for Predicting Experiential Impact of Charts	May 23, 2025	Benchmarking	—Unverified
SemSegBench & DetecBench: Benchmarking Reliability and Generalization Beyond Classification	May 23, 2025	BenchmarkingClassification	CodeCode Available
Benchmark for Antibody Binding Affinity Maturation and Design	May 23, 2025	Benchmarking	—Unverified
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation	May 23, 2025	Audio GenerationBenchmarking	—Unverified
U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding	May 23, 2025	BenchmarkingSpatial Reasoning	—Unverified
3D Face Reconstruction Error Decomposed: A Modular Benchmark for Fair and Fast Method Evaluation	May 23, 2025	3D Face ReconstructionBenchmarking	CodeCode Available
Is Single-View Mesh Reconstruction Ready for Robotics?	May 23, 2025	3D ReconstructionBenchmarking	—Unverified
JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models	May 23, 2025	BenchmarkingDiversity	CodeCode Available
PawPrint: Whose Footprints Are These? Identifying Animal Individuals by Their Footprints	May 23, 2025	Benchmarking	—Unverified
Benchmarking Expressive Japanese Character Text-to-Speech with VITS and Style-BERT-VITS2	May 22, 2025	BenchmarkingDialogue Generation	—Unverified
Experimental robustness benchmark of quantum neural network on a superconducting quantum processor	May 22, 2025	Adversarial AttackAdversarial Robustness	—Unverified
Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models	May 22, 2025	BenchmarkingLanguage Modeling	—Unverified
Edge-First Language Model Inference: Models, Metrics, and Tradeoffs	May 22, 2025	BenchmarkingLanguage Modeling	—Unverified
KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models	May 22, 2025	BenchmarkingDiagnostic	—Unverified
Benchmarking and Pushing the Multi-Bias Elimination Boundary of LLMs via Causal Effect Estimation-guided Debiasing	May 22, 2025	Benchmarking	—Unverified

Show:10 25 50

← PrevPage 70 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified