The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

659,983 papers248,104 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 801–850 of 659983 papers

Title	Date	Status
CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation	Mar 23, 2026	—Unverified
mmFHE: mmWave Sensing with End-to-End Fully Homomorphic Encryption	Mar 23, 2026	—Unverified
Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs	Mar 23, 2026	—Unverified
SkillRouter: Retrieve-and-Rerank Skill Selection for LLM Agents at Scale	Mar 23, 2026	—Unverified
MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding	Mar 23, 2026	—Unverified
A Theoretical Framework for Energy-Aware Gradient Pruning in Federated Learning	Mar 23, 2026	—Unverified
Color When It Counts: Grayscale-Guided Online Triggering for Always-On Streaming Video Sensing	Mar 23, 2026	—Unverified
SPDE Methods for Nonparametric Bayesian Posterior Contraction and Laplace Approximation	Mar 23, 2026	—Unverified
Wake Up to the Past: Using Memory to Model Fluid Wake Effects on Robots	Mar 23, 2026	—Unverified
Functional Component Ablation Reveals Specialization Patterns in Hybrid Language Model Architectures	Mar 23, 2026	—Unverified
Rashid: A Cipher-Based Framework for Exploring In-Context Language Learning	Mar 23, 2026	—Unverified
OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection	Mar 23, 2026	—Unverified
Sketch2CT: Multimodal Diffusion for Structure-Aware 3D Medical Volume Generation	Mar 23, 2026	—Unverified
High Resolution Flood Extent Detection Using Deep Learning with Random Forest Derived Training Labels	Mar 23, 2026	—Unverified
LLMON: An LLM-native Markup Language to Leverage Structure and Semantics at the LLM Interface	Mar 23, 2026	—Unverified
Adversarial Vulnerabilities in Neural Operator Digital Twins: Gradient-Free Attacks on Nuclear Thermal-Hydraulic Surrogates	Mar 23, 2026	—Unverified
Learning Sidewalk Autopilot from Multi-Scale Imitation with Corrective Behavior Expansion	Mar 23, 2026	—Unverified
GraphRAG for Engineering Diagrams: ChatP&ID Enables LLM Interaction with P&IDs	Mar 23, 2026	—Unverified
Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos	Mar 23, 2026	—Unverified
Multimodal Training to Unimodal Deployment: Leveraging Unstructured Data During Training to Optimize Structured Data Only Deployment	Mar 23, 2026	—Unverified
UrbanVGGT: Scalable Sidewalk Width Estimation from Street View Images	Mar 23, 2026	—Unverified
AI Mental Models: Learned Intuition and Deliberation in a Bounded Neural Architecture	Mar 23, 2026	—Unverified
Privacy-Preserving Reinforcement Learning from Human Feedback via Decoupled Reward Modeling	Mar 23, 2026	—Unverified
MIOFlow 2.0: A unified framework for inferring cellular stochastic dynamics from single cell and spatial transcriptomics data	Mar 23, 2026	—Unverified
Reddit After Roe: A Computational Analysis of Abortion Narratives and Barriers in the Wake of Dobbs	Mar 23, 2026	—Unverified
CanViT: Toward Active-Vision Foundation Models	Mar 23, 2026	—Unverified
FullCircle: Effortless 3D Reconstruction from Casual 360^ Captures	Mar 23, 2026	—Unverified
CAPITU: A Benchmark for Evaluating Instruction-Following in Brazilian Portuguese with Literary Context	Mar 23, 2026	—Unverified
STRIATUM-CTF: A Protocol-Driven Agentic Framework for General-Purpose CTF Solving	Mar 23, 2026	—Unverified
Lie to Me: How Faithful Is Chain-of-Thought Reasoning in Reasoning Models?	Mar 23, 2026	—Unverified
Single-Subject Multi-View MRI Super-Resolution via Implicit Neural Representations	Mar 23, 2026	—Unverified
LGSE: Lexically Grounded Subword Embedding Initialization for Low-Resource Language Adaptation	Mar 23, 2026	—Unverified
CAM3R: Camera-Agnostic Model for 3D Reconstruction	Mar 23, 2026	—Unverified
Graph-Aware Late Chunking for Retrieval-Augmented Generation in Biomedical Literature	Mar 23, 2026	—Unverified
Q-Tacit: Image Quality Assessment via Latent Visual Reasoning	Mar 23, 2026	—Unverified
Multi-Method Validation of Large Language Model Medical Translation Across High- and Low-Resource Languages	Mar 23, 2026	—Unverified
Overfitting and Generalizing with (PAC) Bayesian Prediction in Noisy Binary Classification	Mar 23, 2026	—Unverified
AwesomeLit: Towards Hypothesis Generation with Agent-Supported Literature Research	Mar 23, 2026	—Unverified
Pretext Matters: An Empirical Study of SSL Methods in Medical Imaging	Mar 23, 2026	—Unverified
MAGICIAN: Efficient Long-Term Planning with Imagined Gaussians for Active Mapping	Mar 23, 2026	—Unverified
Mixture of Demonstrations for Textual Graph Understanding and Question Answering	Mar 23, 2026	—Unverified
Upper Entropy for 2-Monotone Lower Probabilities	Mar 23, 2026	—Unverified
DRTriton: Large-Scale Synthetic Data Reinforcement Learning for Triton Kernel Generation	Mar 23, 2026	—Unverified
Beyond Correlation: Refutation-Validated Aspect-Based Sentiment Analysis for Explainable Energy Market Returns	Mar 23, 2026	—Unverified
Off-Policy Evaluation for Ranking Policies under Deterministic Logging Policies	Mar 23, 2026	—Unverified
GaussianSSC: Triplane-Guided Directional Gaussian Fields for 3D Semantic Completion	Mar 23, 2026	—Unverified
Learning Trajectory-Aware Multimodal Large Language Models for Video Reasoning Segmentation	Mar 23, 2026	—Unverified
Effective Strategies for Asynchronous Software Engineering Agents	Mar 23, 2026	—Unverified
Learning Can Converge Stably to the Wrong Belief under Latent Reliability	Mar 23, 2026	—Unverified
Multinoulli Extension: A Lossless Continuous Relaxation for Partition-Constrained Subset Selection	Mar 23, 2026	—Unverified