The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

510,095 papers251,776 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 510095 papers

Title	Date	Status
Geometry as a Missing Axis of Representation Quality: The Variational Geometric Information Bottleneck under Data Scarcity	Jul 2, 2026	—Unverified
Gaussians on Fire: High-Frequency Reconstruction of Flames	Jul 2, 2026	—Unverified
Local exponential stability of mean-field Langevin descent-ascent and associated particle system	Jul 2, 2026	—Unverified
Language-Guided Transformer Tokenizer for Human Motion Generation	Jul 2, 2026	—Unverified
Incremental (k, z)-Clustering on Graphs	Jul 2, 2026	—Unverified
VaSST: Variational Inference for Symbolic Regression using Soft Symbolic Trees	Jul 2, 2026	—Unverified
Recursive Models for Long-Horizon Reasoning	Jul 2, 2026	—Unverified
Conformal Policy Control	Jul 2, 2026	—Unverified
Multilingual Prompt Localization for Agent-as-a-Judge: Language and Backbone Sensitivity in Requirement-Level Evaluation	Jul 2, 2026	—Unverified
A Simplex Witness Certificate and Escape Force for Constant Collapse in Variational Autoencoders	Jul 2, 2026	—Unverified
PE-means: Improved Differentially Private k-means Clustering through Private Evolution	Jul 2, 2026	—Unverified
Kolmogorov-Arnold Reservoir Computing	Jul 2, 2026	—Unverified
Spatial Reasoning via Modality Switching Between Language and Symbolic Representation	Jul 2, 2026	—Unverified
MemSyco-Bench: Benchmarking Sycophancy in Agent Memory	Jul 2, 2026	—Unverified
SCAPE: Accurate and Efficient LLM Training with Extreme Sparse Communication	Jul 2, 2026	—Unverified
Spanning Tree Autoregressive Visual Generation	Jul 2, 2026	—Unverified
Structure-Aware Gaussian Splatting for Large-Scale Scene Reconstruction	Jul 2, 2026	—Unverified
Subliminal Clocks: Latent Time Modelling in Diffusion Language Models	Jul 2, 2026	—Unverified
Set Diffusion: Interpolating Token Orderings Between Autoregression and Diffusion for Fast and Flexible Decoding	Jul 2, 2026	—Unverified
AI Virtue: What is "Good" Knowledge in the Age of Artificial Intelligence?	Jul 2, 2026	—Unverified
On the Limits of Steering Vectors for Preference-Aligned Generation	Jul 2, 2026	—Unverified
Pre-Flight: A Benchmark for Evaluating Large Language Models on Aviation Operational Knowledge	Jul 2, 2026	—Unverified
Many Voices, One Reward: Multi-Role Rubric Generation for LLM Judging and Reward Modeling	Jul 2, 2026	—Unverified
Scalable and Distributed Silhouette Approximation	Jul 2, 2026	—Unverified
Using embeddings to predict spoken word duration and pitch in Mandarin monosyllabic words	Jul 2, 2026	—Unverified