The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 14751–14800 of 474278 papers

Title	Date	Status	Hype
When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning	Feb 9, 2026	—Unverified	1
PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling	Mar 15, 2026	—Unverified	1
GradMem: Learning to Write Context into Memory with Test-Time Gradient Descent	Mar 14, 2026	—Unverified	1
Block-Recurrent Dynamics in Vision Transformers	Mar 17, 2026	—Unverified	1
QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models	Feb 27, 2026	—Unverified	1
Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry	Jan 30, 2026	—Unverified	1
How to Take a Memorable Picture? Empowering Users with Actionable Feedback	Mar 19, 2026	—Unverified	1
CooperBench: Why Coding Agents Cannot be Your Teammates Yet	Jan 26, 2026	—Unverified	1
FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation	Jan 23, 2026	—Unverified	1
3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model	Mar 19, 2026	—Unverified	1
Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers	Jan 28, 2026	—Unverified	1
Next Embedding Prediction Makes World Models Stronger	Mar 3, 2026	—Unverified	1
Scale Space Diffusion	Mar 9, 2026	—Unverified	1
Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability	Feb 2, 2026	—Unverified	1
GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts	Feb 3, 2026	—Unverified	1
Monocular Normal Estimation via Shading Sequence Estimation	Mar 10, 2026	—Unverified	1
DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning	Feb 18, 2026	—Unverified	1
P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads	Feb 10, 2026	—Unverified	1
Mixture of Style Experts for Diverse Image Stylization	Mar 19, 2026	—Unverified	1
SynthVerse: A Large-Scale Diverse Synthetic Dataset for Point Tracking	Feb 4, 2026	—Unverified	1
FeatureBench: Benchmarking Agentic Coding for Complex Feature Development	Feb 11, 2026	—Unverified	1
Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models	Mar 3, 2026	—Unverified	1
Factuality Matters: When Image Generation and Editing Meet Structured Visuals	Mar 4, 2026	—Unverified	1
TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models	Jan 26, 2026	—Unverified	1
HalluHard: A Hard Multi-Turn Hallucination Benchmark	Feb 1, 2026	—Unverified	1
TensorLens: End-to-End Transformer Analysis via High-Order Attention Tensors	Jan 25, 2026	—Unverified	1
TADA! Tuning Audio Diffusion Models through Activation Steering	Feb 12, 2026	—Unverified	1
Coarse-Guided Visual Generation via Weighted h-Transform Sampling	Mar 12, 2026	—Unverified	1
EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation	Mar 12, 2026	—Unverified	1
HoneyBee: Data Recipes for Vision-Language Reasoners	Mar 12, 2026	—Unverified	1
MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier	Mar 4, 2026	—Unverified	1
ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL Problems	Mar 4, 2026	—Unverified	1
MIND-V: Hierarchical World Model for Long-Horizon Robotic Manipulation with RL-based Physical Alignment	Mar 13, 2026	—Unverified	1
Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction	Feb 9, 2026	—Unverified	1
ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors	Mar 4, 2026	—Unverified	1
Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs	Mar 5, 2026	—Unverified	1
Language Models are Injective and Hence Invertible	Mar 13, 2026	—Unverified	1
RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback	Mar 12, 2026	—Unverified	1
DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval	Mar 5, 2026	—Unverified	1
DeepSight: An All-in-One LM Safety Toolkit	Feb 12, 2026	—Unverified	1
Privileged Information Distillation for Language Models	Feb 16, 2026	—Unverified	1
Dropping Anchor and Spherical Harmonics for Sparse-view Gaussian Splatting	Feb 24, 2026	—Unverified	1
Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs	Feb 24, 2026	—Unverified	1
Enhancing Multi-Image Understanding through Delimiter Token Scaling	Feb 25, 2026	—Unverified	1
CodeScaler: Scaling Code LLM Training and Test-Time Inference via Execution-Free Reward Models	Feb 4, 2026	—Unverified	1
A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)	Feb 16, 2026	—Unverified	1
UniVBench: Towards Unified Evaluation for Video Foundation Models	Mar 6, 2026	—Unverified	1
Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data	Feb 24, 2026	—Unverified	1
UrbanVerse: Scaling Urban Simulation by Watching City-Tour Videos	Mar 2, 2026	—Unverified	1
FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling	Mar 6, 2026	—Unverified	1