The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

661,570 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3951–3975 of 661570 papers

Title	Date	Status
Efficient Dense Crowd Trajectory Prediction Via Dynamic Clustering	Mar 18, 2026	—Unverified
Enactor: From Traffic Simulators to Surrogate World Models	Mar 18, 2026	—Unverified
Modeling the human lexicon under temperature variations: linguistic factors, diversity and typicality in LLM word associations	Mar 18, 2026	—Unverified
Conflict-Free Policy Languages for Probabilistic ML Predicates: A Framework and Case Study with the Semantic Router DSL	Mar 18, 2026	—Unverified
Starting Off on the Wrong Foot: Pitfalls in Data Preparation	Mar 18, 2026	—Unverified
MicroVision: An Open Dataset and Benchmark Models for Detecting Vulnerable Road Users and Micromobility Vehicles	Mar 18, 2026	—Unverified
Tackling the Sign Problem in the Doped Hubbard Model with Normalizing Flows	Mar 18, 2026	—Unverified
Semantic Segmentation and Depth Estimation for Real-Time Lunar Surface Mapping Using 3D Gaussian Splatting	Mar 18, 2026	—Unverified
A Hybrid Conditional Diffusion-DeepONet Framework for High-Fidelity Stress Prediction in Hyperelastic Materials	Mar 18, 2026	—Unverified
Toward Reliable, Safe, and Secure LLMs for Scientific Applications	Mar 18, 2026	—Unverified
Gradient-Informed Temporal Sampling Improves Rollout Accuracy in PDE Surrogate Training	Mar 18, 2026	—Unverified
EDM-ARS: A Domain-Specific Multi-Agent System for Automated Educational Data Mining Research	Mar 18, 2026	—Unverified
Detection Is Cheap, Routing Is Learned: Why Refusal-Based Alignment Evaluation Fails	Mar 18, 2026	—Unverified
CycleCap: Improving VLMs Captioning Performance via Self-Supervised Cycle Consistency Fine-Tuning	Mar 18, 2026	—Unverified
Offload or Overload: A Platform Measurement Study of Mobile Robotic Manipulation Workloads	Mar 18, 2026	—Unverified
The Validity Gap in Health AI Evaluation: A Cross-Sectional Analysis of Benchmark Composition	Mar 18, 2026	—Unverified
Sparse3DTrack: Monocular 3D Object Tracking Using Sparse Supervision	Mar 18, 2026	—Unverified
Fast and Generalizable NeRF Architecture Selection for Satellite Scene Reconstruction	Mar 18, 2026	—Unverified
Unrolled Reconstruction with Integrated Super-Resolution for Accelerated 3D LGE MRI	Mar 18, 2026	—Unverified
Learning to Reason with Curriculum I: Provable Benefits of Autocurriculum	Mar 18, 2026	—Unverified
Escaping Offline Pessimism: Vector-Field Reward Shaping for Safe Frontier Exploration	Mar 18, 2026	—Unverified
Consumer-to-Clinical Language Shifts in Ambient AI Draft Notes and Clinician-Finalized Documentation: A Multi-level Analysis	Mar 18, 2026	—Unverified
A Family of Adaptive Activation Functions for Mitigating Failure Modes in Physics-Informed Neural Networks	Mar 18, 2026	—Unverified
FaithSteer-BENCH: A Deployment-Aligned Stress-Testing Benchmark for Inference-Time Steering	Mar 18, 2026	—Unverified
MemArchitect: A Policy Driven Memory Governance Layer	Mar 18, 2026	—Unverified