Benchmarking

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4301–4325 of 5548 papers

Title	Date	Tasks	Status
VATr++: Choose Your Words Wisely for Handwritten Text Generation	Feb 16, 2024	BenchmarkingText Generation	—Unverified
Vec2Face: Unveil Human Faces from their Blackbox Features in Face Recognition	Mar 16, 2020	BenchmarkingFace Recognition	—Unverified
VELOCITI: Benchmarking Video-Language Compositional Reasoning with Strict Entailment	Jun 16, 2024	Action UnderstandingBenchmarking	—Unverified
VeriContaminated: Assessing LLM-Driven Verilog Coding for Data Contamination	Mar 17, 2025	BenchmarkingCode Generation	—Unverified
VeriFact: Enhancing Long-Form Factuality Evaluation with Refined Fact Extraction and Reference Facts	May 14, 2025	BenchmarkingForm	—Unverified
Verifiable Format Control for Large Language Model Generations	Feb 6, 2025	BenchmarkingInstruction Following	—Unverified
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity	Mar 14, 2025	BenchmarkingDecision Making	—Unverified
VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models	May 21, 2025	BenchmarkingReinforcement Learning (RL)	—Unverified
VFHQ: A High-Quality Dataset and Benchmark for Video Face Super-Resolution	May 6, 2022	BenchmarkingSpeaker Identification	—Unverified
ViC-Bench: Benchmarking Visual-Interleaved Chain-of-Thought Capability in MLLMs with Free-Style Intermediate State Representations	May 20, 2025	Benchmarking	—Unverified
Benchmarking Badminton Action Recognition with a New Fine-Grained Dataset	Mar 19, 2024	Action RecognitionBenchmarking	—Unverified
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos	Jun 5, 2025	BenchmarkingMathematical Reasoning	—Unverified
VidLBEval: Benchmarking and Mitigating Language Bias in Video-Involved LVLMs	Feb 23, 2025	Benchmarking	—Unverified
Views Are My Own, but Also Yours: Benchmarking Theory of Mind Using Common Ground	Mar 4, 2024	Benchmarking	—Unverified
Village-Net Clustering: A Rapid approach to Non-linear Unsupervised Clustering of High-Dimensional Data	Jan 16, 2025	BenchmarkingClustering	—Unverified
VIPPrint: A Large Scale Dataset of Printed and Scanned Images for Synthetic Face Images Detection and Source Linking	Feb 1, 2021	BenchmarkingImage Manipulation	—Unverified
Virus-MNIST: Machine Learning Baseline Calculations for Image Classification	Nov 3, 2021	BenchmarkingBIG-bench Machine Learning	—Unverified
VisAidMath: Benchmarking Visual-Aided Mathematical Reasoning	Oct 30, 2024	BenchmarkingHallucination	—Unverified
VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning	Dec 3, 2024	BenchmarkingVisual Reasoning	—Unverified
VisImages: A Fine-Grained Expert-Annotated Visualization Dataset	Jul 9, 2020	Benchmarking	—Unverified
WebCode2M: A Real-World Dataset for Code Generation from Webpage Designs	Apr 9, 2024	BenchmarkingCode Generation	—Unverified
Vision-Based Deep Reinforcement Learning of UAV Autonomous Navigation Using Privileged Information	Dec 9, 2024	Autonomous NavigationBenchmarking	—Unverified
Vision-Based Power Line Cables and Pylons Detection for Low Flying Aircraft	Jul 19, 2024	BenchmarkingTransfer Learning	—Unverified
VisionKG: Unleashing the Power of Visual Datasets via Knowledge Graph	Sep 24, 2023	BenchmarkingKnowledge Graphs	—Unverified
Vision Learners Meet Web Image-Text Pairs	Jan 17, 2023	BenchmarkingSelf-Supervised Learning	—Unverified

Show:10 25 50

← PrevPage 173 of 222Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 Turbo	ACC	0.56	—	Unverified