The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15151–15200 of 474278 papers

Title	Date	Tasks	Status	Hype
Transformer IMU Calibrator: Dynamic On-body IMU Calibration for Inertial Motion Capture	Jun 12, 2025		CodeCode Available	1
RePO: Replay-Enhanced Policy Optimization	Jun 11, 2025	MathMathematical Reasoning	CodeCode Available	1
Towards Practical Alzheimer's Disease Diagnosis: A Lightweight and Interpretable Spiking Neural Model	Jun 11, 2025	Diagnostic	CodeCode Available	1
ScaleLSD: Scalable Deep Line Segment Detection Streamlined	Jun 11, 2025	3D geometryLine Segment Detection	CodeCode Available	1
Noise Conditional Variational Score Distillation	Jun 11, 2025	Conditional Image GenerationDenoising	CodeCode Available	1
Unmasking real-world audio deepfakes: A data-centric approach	Jun 11, 2025	DeepFake DetectionFace Swapping	CodeCode Available	1
DAVSP: Safety Alignment for Large Vision-Language Models via Deep Aligned Visual Safety Prompt	Jun 11, 2025	Safety Alignment	CodeCode Available	1
Non-Contact Health Monitoring During Daily Personal Care Routines	Jun 11, 2025	Heart rate estimationMulti-Task Learning	CodeCode Available	1
Interpreting learned search: finding a transition model and value function in an RNN that plays Sokoban	Jun 11, 2025	Sokoban	CodeCode Available	1
3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation	Jun 11, 2025	Spatial Reasoning	CodeCode Available	1
Revisit What You See: Disclose Language Prior in Vision Tokens for Efficient Guided Decoding of LVLMs	Jun 11, 2025	HallucinationObject Hallucination	CodeCode Available	1
BemaGANv2: A Tutorial and Comparative Survey of GAN-based Vocoders for Long-Term Audio Generation	Jun 11, 2025	Audio GenerationFAD	CodeCode Available	1
GLGENN: A Novel Parameter-Light Equivariant Neural Networks Architecture Based on Clifford Geometric Algebras	Jun 11, 2025	Benchmarking	CodeCode Available	1
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs	Jun 11, 2025	Code GenerationDiagnostic	CodeCode Available	1
Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models	Jun 11, 2025	DiversitySemantic Similarity	CodeCode Available	1
Exposure-slot: Exposure-centric representations learning with Slot-in-Slot Attention for Region-aware Exposure Correction	Jun 11, 2025	Exposure CorrectionImage Enhancement	CodeCode Available	1
On the Similarities of Embeddings in Contrastive Learning	Jun 11, 2025	Contrastive Learning	CodeCode Available	1
LLMail-Inject: A Dataset from a Realistic Adaptive Prompt Injection Challenge	Jun 11, 2025		CodeCode Available	1
California Crop Yield Benchmark: Combining Satellite Image, Climate, Evapotranspiration, and Soil Data Layers for County-Level Yield Forecasting of Over 70 Crops	Jun 11, 2025		CodeCode Available	1
Attention, Please! Revisiting Attentive Probing for Masked Image Modeling	Jun 11, 2025	BenchmarkingComputational Efficiency	CodeCode Available	1
Leveraging Depth and Language for Open-Vocabulary Domain-Generalized Semantic Segmentation	Jun 11, 2025	Autonomous DrivingDomain Generalization	CodeCode Available	1
CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios	Jun 11, 2025		CodeCode Available	1
Revisiting Diffusion Models: From Generative Pre-training to One-Step Generation	Jun 11, 2025		CodeCode Available	1
The Four Color Theorem for Cell Instance Segmentation	Jun 11, 2025	Computational EfficiencyInstance Segmentation	CodeCode Available	1
Mutual-Supervised Learning for Sequential-to-Parallel Code Translation	Jun 11, 2025	Code TranslationGPU	CodeCode Available	1
Query-Focused Retrieval Heads Improve Long-Context Reasoning and Re-ranking	Jun 11, 2025	Re-RankingRetrieval	CodeCode Available	1
Rethinking Brain Tumor Segmentation from the Frequency Domain Perspective	Jun 11, 2025	Brain Tumor SegmentationComputational Efficiency	CodeCode Available	1
Training-Free Voice Conversion with Factorized Optimal Transport	Jun 11, 2025	Voice Conversion	CodeCode Available	1
Resa: Transparent Reasoning Models via SAEs	Jun 11, 2025	Math	CodeCode Available	1
FaithfulRAG: Fact-Level Conflict Modeling for Context-Faithful Retrieval-Augmented Generation	Jun 10, 2025	RAGRetrieval	CodeCode Available	1
InceptionMamba: An Efficient Hybrid Network with Large Band Convolution and Bottleneck Mamba	Jun 10, 2025	Computational Efficiencyimage-classification	CodeCode Available	1
Intention-Conditioned Flow Occupancy Models	Jun 10, 2025	Reinforcement Learning (RL)	CodeCode Available	1
DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval	Jun 10, 2025	Image CaptioningRetrieval	CodeCode Available	1
SPEED-RL: Faster Training of Reasoning Models via Online Curriculum Learning	Jun 10, 2025	Reinforcement Learning (RL)	CodeCode Available	1
RS-MTDF: Multi-Teacher Distillation and Fusion for Remote Sensing Semi-Supervised Semantic Segmentation	Jun 10, 2025	Semantic SegmentationSemi-Supervised Semantic Segmentation	CodeCode Available	1
SLEEPYLAND: trust begins with fair evaluation of automatic sleep staging models	Jun 10, 2025	EEGSleep Staging	CodeCode Available	1
Token Perturbation Guidance for Diffusion Models	Jun 10, 2025		CodeCode Available	1
mLaSDI: Multi-stage latent space dynamics identification	Jun 10, 2025		CodeCode Available	1
DRAGged into Conflicts: Detecting and Addressing Conflicting Sources in Search-Augmented LLMs	Jun 10, 2025	RAGRetrieval-augmented Generation	CodeCode Available	1
Draft-based Approximate Inference for LLMs	Jun 10, 2025		CodeCode Available	1
scSSL-Bench: Benchmarking Self-Supervised Learning for Single-Cell Data	Jun 10, 2025	BenchmarkingData Augmentation	CodeCode Available	1
SDMPrune: Self-Distillation MLP Pruning for Efficient Large Language Models	Jun 10, 2025		CodeCode Available	1
On Reasoning Strength Planning in Large Reasoning Models	Jun 10, 2025		CodeCode Available	1
EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements	Jun 10, 2025	Binary ClassificationFinancial Analysis	CodeCode Available	1
GUIRoboTron-Speech: Towards Automated GUI Agents Based on Speech Instructions	Jun 10, 2025	text-to-speechText to Speech	CodeCode Available	1
CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmark of Large Language Models in Mental Health Counseling	Jun 10, 2025	Benchmarking	CodeCode Available	1
Robot-Gated Interactive Imitation Learning with Adaptive Intervention Mechanism	Jun 10, 2025	Imitation Learning	CodeCode Available	1
LaDCast: A Latent Diffusion Model for Medium-Range Ensemble Weather Forecasting	Jun 10, 2025	Uncertainty QuantificationWeather Forecasting	CodeCode Available	1
HSG-12M: A Large-Scale Spatial Multigraph Dataset	Jun 10, 2025	Graph Learningscientific discovery	CodeCode Available	1
On Finetuning Tabular Foundation Models	Jun 10, 2025	In-Context LearningRetrieval	CodeCode Available	1