The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 14601–14650 of 474278 papers

Title	Date	Status	Hype
OSF: On Pre-training and Scaling of Sleep Foundation Models	Feb 27, 2026	—Unverified	1
Revisiting Text Ranking in Deep Research	Feb 25, 2026	—Unverified	1
Large Multimodal Models as General In-Context Classifiers	Feb 26, 2026	—Unverified	1
Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models	Mar 16, 2026	—Unverified	1
CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding	Feb 2, 2026	—Unverified	1
Rethinking Global Text Conditioning in Diffusion Transformers	Feb 9, 2026	—Unverified	1
Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation	Feb 9, 2026	—Unverified	1
Segment Any Events with Language	Jan 30, 2026	—Unverified	1
Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training	Feb 8, 2026	—Unverified	1
Benchmarking Vision-Language Models for French PDF-to-Markdown Conversion	Feb 12, 2026	—Unverified	1
See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning	Feb 5, 2026	—Unverified	1
SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models	Feb 22, 2026	—Unverified	1
Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer	Mar 19, 2026	—Unverified	1
Stroke of Surprise: Progressive Semantic Illusions in Vector Sketching	Feb 12, 2026	—Unverified	1
Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space	Jan 28, 2026	—Unverified	1
GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing	Mar 12, 2026	—Unverified	1
SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios	Jan 26, 2026	—Unverified	1
Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training	Mar 2, 2026	—Unverified	1
VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL	Mar 5, 2026	—Unverified	1
Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-Training	Mar 2, 2026	—Unverified	1
Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking	Feb 24, 2026	—Unverified	1
Imagination Helps Visual Reasoning, But Not Yet in Latent Space	Feb 26, 2026	—Unverified	1
Reward Prediction with Factorized World States	Mar 10, 2026	—Unverified	1
Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs	Mar 3, 2026	—Unverified	1
Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL	Feb 3, 2026	—Unverified	1
Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model	Mar 5, 2026	—Unverified	1
Stereo World Model: Camera-Guided Stereo Video Generation	Mar 18, 2026	—Unverified	1
π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs	Mar 9, 2026	—Unverified	1
Quantile Advantage Estimation: Stabilizing RLVR for LLM Reasoning	Feb 28, 2026	—Unverified	1
SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs	Feb 5, 2026	—Unverified	1
GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing	Feb 24, 2026	—Unverified	1
Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment	Feb 12, 2026	—Unverified	1
ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents	Mar 19, 2026	—Unverified	1
AgentOCR: Reimagining Agent History via Optical Self-Compression	Feb 28, 2026	—Unverified	1
Can Language Models Discover Scaling Laws?	Jan 22, 2026	—Unverified	1
Adam Improves Muon: Adaptive Moment Estimation with Orthogonalized Momentum	Feb 20, 2026	—Unverified	1
InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning	Feb 9, 2026	—Unverified	1
LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs	Feb 25, 2026	—Unverified	1
SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale	Feb 27, 2026	—Unverified	1
CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion	Mar 6, 2026	—Unverified	1
Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos	Mar 1, 2026	—Unverified	1
M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM	Mar 17, 2026	—Unverified	1
BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning	Mar 5, 2026	—Unverified	1
Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections	Mar 12, 2026	—Unverified	1
Self-Improving World Modelling with Latent Actions	Feb 15, 2026	—Unverified	1
MDM-Prime-v2: Binary Encoding and Index Shuffling Enable Compute-optimal Scaling of Diffusion Language Models	Mar 17, 2026	—Unverified	1
ReLoop: Structured Modeling and Behavioral Verification for Reliable LLM-Based Optimization	Feb 17, 2026	—Unverified	1
HiconAgent: History Context-aware Policy Optimization for GUI Agents	Mar 8, 2026	—Unverified	1
Revisiting the Platonic Representation Hypothesis: An Aristotelian View	Feb 16, 2026	—Unverified	1
SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise	Feb 13, 2026	—Unverified	1