The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

659,983 papers248,104 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–325 of 659983 papers

Title	Date	Status
Synthetic or Authentic? Building Mental Patient Simulators from Longitudinal Evidence	Mar 24, 2026	—Unverified
Explanation Generation for Contradiction Reconciliation with LLMs	Mar 24, 2026	—Unverified
Multitask-Informed Prior for In-Context Learning on Tabular Data: Application to Steel Property Prediction	Mar 24, 2026	—Unverified
Analysing LLM Persona Generation and Fairness Interpretation in Polarised Geopolitical Contexts	Mar 24, 2026	—Unverified
CoMaTrack: Competitive Multi-Agent Game-Theoretic Tracking with Vision-Language-Action Models	Mar 24, 2026	—Unverified
Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought	Mar 24, 2026	—Unverified
UniQueR: Unified Query-based Feedforward 3D Reconstruction	Mar 24, 2026	—Unverified
Gau-Occ: Geometry-Completed Gaussians for Multi-Modal 3D Occupancy Prediction	Mar 24, 2026	—Unverified
Agent Audit: A Security Analysis System for LLM Agent Applications	Mar 24, 2026	—Unverified
Avoiding Over-smoothing in Social Media Rumor Detection with Pre-trained Propagation Tree Transformer	Mar 24, 2026	—Unverified
Agent-Sentry: Bounding LLM Agents via Execution Provenance	Mar 24, 2026	—Unverified
Chain-of-Authorization: Internalizing Authorization into Large Language Models via Reasoning Trajectories	Mar 24, 2026	—Unverified
Designing to Forget: Deep Semi-parametric Models for Unlearning	Mar 24, 2026	—Unverified
Dynamical Systems Theory Behind a Hierarchical Reasoning Model	Mar 24, 2026	—Unverified
ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance	Mar 24, 2026	—Unverified
Template-Based Feature Aggregation Network for Industrial Anomaly Detection	Mar 24, 2026	—Unverified
VLGOR: Visual-Language Knowledge Guided Offline Reinforcement Learning for Generalizable Agents	Mar 24, 2026	—Unverified
Off-Policy Evaluation and Learning for Survival Outcomes under Censoring	Mar 24, 2026	—Unverified
Separating Diagnosis from Control: Auditable Policy Adaptation in Agent-Based Simulations with LLM-Based Diagnostics	Mar 24, 2026	—Unverified
EchoKV: Efficient KV Cache Compression via Similarity-Based Reconstruction	Mar 24, 2026	—Unverified
Ran Score: a LLM-based Evaluation Score for Radiology Report Generation	Mar 24, 2026	—Unverified
FixationFormer: Direct Utilization of Expert Gaze Trajectories for Chest X-Ray Classification	Mar 24, 2026	—Unverified
Algorithmic warm starts for Hamiltonian Monte Carlo	Mar 24, 2026	—Unverified
Beyond Binary Correctness: Scaling Evaluation of Long-Horizon Agents on Subjective Enterprise Tasks	Mar 24, 2026	—Unverified
REALITrees: Rashomon Ensemble Active Learning for Interpretable Trees	Mar 24, 2026	—Unverified