The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 14551–14600 of 474278 papers

Title	Date	Status	Hype
Stereo World Model: Camera-Guided Stereo Video Generation	Mar 18, 2026	—Unverified	1
Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models	Mar 18, 2026	—Unverified	1
Learning Goal-Oriented Vision-and-Language Navigation with Self-Improving Demonstrations at Scale	Mar 18, 2026	—Unverified	1
Learning to See and Act: Task-Aware Virtual View Exploration for Robotic Manipulation	Mar 18, 2026	—Unverified	1
InCoder-32B: Code Foundation Model for Industrial Scenarios	Mar 17, 2026	—Unverified	1
Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning	Mar 17, 2026	—Unverified	1
Demystifing Video Reasoning	Mar 17, 2026	—Unverified	1
COREA: Coupled Relightable 3D Gaussians and SDFs for Efficient Normal Alignment	Mar 17, 2026	—Unverified	1
AIA: Rethinking Architecture Decoupling Strategy In Unified Multimodal Model	Mar 17, 2026	—Unverified	1
Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation	Mar 17, 2026	—Unverified	1
Block-Recurrent Dynamics in Vision Transformers	Mar 17, 2026	—Unverified	1
MDM-Prime-v2: Binary Encoding and Index Shuffling Enable Compute-optimal Scaling of Diffusion Language Models	Mar 17, 2026	—Unverified	1
M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM	Mar 17, 2026	—Unverified	1
Semi-Autonomous Formalization of the Vlasov-Maxwell-Landau Equilibrium	Mar 16, 2026	—Unverified	1
Code-A1: Adversarial Evolving of Code LLM and Test LLM via Reinforcement Learning	Mar 16, 2026	—Unverified	1
HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions	Mar 16, 2026	—Unverified	1
EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models	Mar 16, 2026	—Unverified	1
HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification	Mar 16, 2026	—Unverified	1
MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants	Mar 16, 2026	—Unverified	1
Sharing State Between Prompts and Programs	Mar 16, 2026	—Unverified	1
How Vulnerable Are AI Agents to Indirect Prompt Injections? Insights from a Large-Scale Public Competition	Mar 16, 2026	—Unverified	1
Panoramic Affordance Prediction	Mar 16, 2026	—Unverified	1
Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models	Mar 16, 2026	—Unverified	1
Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning	Mar 15, 2026	—Unverified	1
PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling	Mar 15, 2026	—Unverified	1
SK-Adapter: Skeleton-Based Structural Control for Native 3D Generation	Mar 14, 2026	—Unverified	1
GradMem: Learning to Write Context into Memory with Test-Time Gradient Descent	Mar 14, 2026	—Unverified	1
HEARTS: Benchmarking LLM Reasoning on Health Time Series	Mar 14, 2026	—Unverified	1
Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories	Mar 14, 2026	—Unverified	1
LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning	Mar 13, 2026	—Unverified	1
Language Models are Injective and Hence Invertible	Mar 13, 2026	—Unverified	1
MIND-V: Hierarchical World Model for Long-Horizon Robotic Manipulation with RL-based Physical Alignment	Mar 13, 2026	—Unverified	1
Visual-ERM: Reward Modeling for Visual Equivalence	Mar 13, 2026	—Unverified	1
V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration	Mar 13, 2026	—Unverified	1
Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation	Mar 12, 2026	—Unverified	1
CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges	Mar 12, 2026	—Unverified	1
GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing	Mar 12, 2026	—Unverified	1
Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings	Mar 12, 2026	—Unverified	1
Critique-Coder: Enhancing Coder Models by Critique Reinforcement Learning	Mar 12, 2026	—Unverified	1
RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback	Mar 12, 2026	—Unverified	1
EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation	Mar 12, 2026	—Unverified	1
HoneyBee: Data Recipes for Vision-Language Reasoners	Mar 12, 2026	—Unverified	1
Coarse-Guided Visual Generation via Weighted h-Transform Sampling	Mar 12, 2026	—Unverified	1
One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers	Mar 12, 2026	—Unverified	1
Toward Complex-Valued Neural Networks for Waveform Generation	Mar 12, 2026	—Unverified	1
Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration	Mar 12, 2026	—Unverified	1
Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following	Mar 12, 2026	—Unverified	1
FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance	Mar 12, 2026	—Unverified	1
Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections	Mar 12, 2026	—Unverified	1
ResearchGym: Evaluating Language Model Agents on Real-World AI Research	Mar 11, 2026	—Unverified	1