The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

661,570 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10001–10050 of 661570 papers

Title	Date	Status	Hype
Localizing and Correcting Errors for LLM-based Planners	Mar 6, 2026	—Unverified	0
Uncertainty-Aware Subset Selection for Robust Visual Explainability under Distribution Shifts	Mar 6, 2026	—Unverified	0
Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement	Mar 6, 2026	—Unverified	0
LLMTM: Benchmarking and Optimizing LLMs for Temporal Motif Analysis in Dynamic Graphs	Mar 6, 2026	—Unverified	0
Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark	Mar 6, 2026	—Unverified	0
Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation	Mar 6, 2026	—Unverified	0
Beyond Mapping : Domain-Invariant Representations via Spectral Embedding of Optimal Transport Plans	Mar 6, 2026	—Unverified	0
SRA 2: Variational Autoencoder Self-Representation Alignment for Efficient Diffusion Training	Mar 6, 2026	—Unverified	0
Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning	Mar 6, 2026	CodeCode Available	0
Stochastic Parroting in Temporal Attention -- Regulating the Diagonal Sink	Mar 6, 2026	—Unverified	0
EDIS: Diagnosing LLM Reasoning via Entropy Dynamics	Mar 6, 2026	—Unverified	0
FARTrack: Fast Autoregressive Visual Tracking with High Performance	Mar 6, 2026	—Unverified	0
SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents	Mar 6, 2026	—Unverified	0
An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations	Mar 6, 2026	—Unverified	0
GaiaFlow: Semantic-Guided Diffusion Tuning for Carbon-Frugal Search	Mar 6, 2026	—Unverified	0
IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR	Mar 6, 2026	—Unverified	0
Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations	Mar 6, 2026	—Unverified	0
StoryTailor:A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives	Mar 6, 2026	—Unverified	0
UniVBench: Towards Unified Evaluation for Video Foundation Models	Mar 6, 2026	—Unverified	1
Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization	Mar 6, 2026	—Unverified	0
Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos	Mar 6, 2026	—Unverified	0
How Well Does Agent Development Reflect Real-World Work?	Mar 6, 2026	—Unverified	0
CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning	Mar 6, 2026	—Unverified	0
Weight Updates as Activation Shifts: A Principled Framework for Steering	Mar 6, 2026	—Unverified	0
Adaptive Dynamic Dehazing via Instruction-Driven and Task-Feedback Closed-Loop Optimization for Diverse Downstream Task Adaptation	Mar 6, 2026	—Unverified	0
Multimodal Mixture-of-Experts with Retrieval Augmentation for Protein Active Site Identification	Mar 6, 2026	—Unverified	0
"When to Hand Off, When to Work Together": Expanding Human-Agent Co-Creative Collaboration through Concurrent Interaction	Mar 6, 2026	—Unverified	0
Rigidity-Aware Geometric Pretraining for Protein Design and Conformational Ensembles	Mar 6, 2026	—Unverified	0
VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning	Mar 6, 2026	—Unverified	0
Good-Enough LLM Obfuscation (GELO)	Mar 6, 2026	—Unverified	0
A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA	Mar 6, 2026	—Unverified	0
MOSIV: Multi-Object System Identification from Videos	Mar 6, 2026	—Unverified	0
Implicit Style Conditioning: A Structured Style-Rewrite Framework for Low-Resource Character Modeling	Mar 6, 2026	—Unverified	0
XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights	Mar 6, 2026	—Unverified	0
Unify the Views: View-Consistent Prototype Learning for Few-Shot Segmentation	Mar 6, 2026	CodeCode Available	0
Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models	Mar 6, 2026	—Unverified	0
Domain-Adaptive Model Merging across Disconnected Modes	Mar 6, 2026	—Unverified	0
An Interactive Multi-Agent System for Evaluation of New Product Concepts	Mar 6, 2026	—Unverified	0
Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models	Mar 6, 2026	—Unverified	0
PROBE: Probabilistic Occupancy BEV Encoding with Analytical Translation Robustness for 3D Place Recognition	Mar 6, 2026	—Unverified	0
Agnostic learning in (almost) optimal time via Gaussian surface area	Mar 6, 2026	—Unverified	0
Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions	Mar 6, 2026	—Unverified	0
Technical Report: Automated Optical Inspection of Surgical Instruments	Mar 6, 2026	—Unverified	0
Diffusion Language Models Are Natively Length-Aware	Mar 6, 2026	—Unverified	0
Stem: Rethinking Causal Information Flow in Sparse Attention	Mar 6, 2026	—Unverified	0
MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs	Mar 6, 2026	—Unverified	0
Sensitivity-Aware Retrieval-Augmented Intent Clarification	Mar 6, 2026	—Unverified	0
RePer-360: Releasing Perspective Priors for 360^ Depth Estimation via Self-Modulation	Mar 6, 2026	—Unverified	0
Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration	Mar 6, 2026	—Unverified	0
Demystifying KAN for Vision Tasks: The RepKAN Approach	Mar 6, 2026	—Unverified	0