The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

661,570 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10201–10250 of 661570 papers

Title	Date	Status
Best-of-Tails: Bridging Optimism and Pessimism in Inference-Time Alignment	Mar 6, 2026	—Unverified
Breaking the Martingale Curse: Multi-Agent Debate via Asymmetric Cognitive Potential Energy	Mar 6, 2026	—Unverified
A Hybrid Machine Learning Model for Cerebral Palsy Detection	Mar 6, 2026	—Unverified
"Dark Triad" Model Organisms of Misalignment: Narrow Fine-Tuning Mirrors Human Antisocial Behavior	Mar 6, 2026	—Unverified
CREDO: Epistemic-Aware Conformalized Credal Envelopes for Regression	Mar 6, 2026	—Unverified
Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models	Mar 6, 2026	—Unverified
Joint MDPs and Reinforcement Learning in Coupled-Dynamics Environments	Mar 6, 2026	—Unverified
Joint 3D Gravity and Magnetic Inversion via Rectified Flow and Ginzburg-Landau Guidance	Mar 6, 2026	—Unverified
Validation of a Small Language Model for DSM-5 Substance Category Classification in Child Welfare Records	Mar 6, 2026	—Unverified
MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies	Mar 6, 2026	—Unverified
Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction	Mar 6, 2026	—Unverified
ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting	Mar 6, 2026	—Unverified
A prior information informed learning architecture for flying trajectory prediction	Mar 6, 2026	—Unverified
Kernel Methods for Some Transport Equations with Application to Learning Kernels for the Approximation of Koopman Eigenfunctions: A Unified Approach via Variational Methods, Green's Functions and the Method of Characteristics	Mar 6, 2026	—Unverified
LieCraft: A Multi-Agent Framework for Evaluating Deceptive Capabilities in Language Models	Mar 6, 2026	—Unverified
Not Too Short, Not Too Long: How LLM Response Length Shapes People's Critical Thinking in Error Detection	Mar 6, 2026	—Unverified
Physics-informed AI Accelerated Retention Analysis of Ferroelectric Vertical NAND: From Day-Scale TCAD to Second-Scale Surrogate Model	Mar 6, 2026	—Unverified
Distributed Legal Infrastructure for a Trustworthy Agentic Web	Mar 6, 2026	—Unverified
OPTED: Open Preprocessed Trachoma Eye Dataset Using Zero-Shot SAM 3 Segmentation	Mar 6, 2026	—Unverified
Enhancing the Detection of Coronary Artery Disease Using Machine Learning	Mar 6, 2026	—Unverified
Learning From Design Procedure To Generate CAD Programs for Data Augmentation	Mar 6, 2026	—Unverified
Fairness May Backfire: When Leveling-Down Occurs in Fair Machine Learning	Mar 6, 2026	—Unverified
Empowering Locally Deployable Medical Agent via State Enhanced Logical Skills for FHIR-based Clinical Tasks	Mar 6, 2026	—Unverified
XGenBoost: Synthesizing Small and Large Tabular Datasets with XGBoost	Mar 6, 2026	—Unverified
MedInjection-FR: Exploring the Role of Native, Synthetic, and Translated Data in Biomedical Instruction Tuning	Mar 6, 2026	—Unverified
PaQ-DETR: Learning Pattern and Quality-Aware Dynamic Queries for Object Detection	Mar 6, 2026	—Unverified
Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images	Mar 6, 2026	—Unverified
HIERAMP: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation	Mar 6, 2026	—Unverified
Swimba: Switch Mamba Model Scales State Space Models	Mar 6, 2026	—Unverified
Physics-Consistent Neural Networks for Learning Deformation and Director Fields in Microstructured Media with Loss-Based Validation Criteria	Mar 6, 2026	—Unverified
Deep Research, Shallow Evaluation: A Case Study in Meta-Evaluation for Long-Form QA Benchmarks	Mar 6, 2026	—Unverified
Position: Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces!	Mar 6, 2026	—Unverified
Agent Hunt: Bounty Based Collaborative Autoformalization With LLM Agents	Mar 6, 2026	—Unverified
Toward Generative Quantum Utility via Correlation-Complexity Map	Mar 6, 2026	—Unverified
Slurry-as-a-Service: A Modest Proposal on Scalable Pluralistic Alignment for Nutrient Optimization	Mar 6, 2026	—Unverified
ODD-SEC: Onboard Drone Detection with a Spinning Event Camera	Mar 6, 2026	—Unverified
The Limits of Long-Context Reasoning in Automated Bug Fixing	Mar 6, 2026	—Unverified
Predictive Coding Graphs are a Superset of Feedforward Neural Networks	Mar 6, 2026	—Unverified
IGLU: The Integrated Gaussian Linear Unit Activation Function	Mar 6, 2026	—Unverified
Kinetic-based regularization: Learning spatial derivatives and PDE applications	Mar 6, 2026	—Unverified
An Extended Topological Model For High-Contrast Optical Flow	Mar 6, 2026	—Unverified
Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?	Mar 6, 2026	—Unverified
Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache	Mar 6, 2026	CodeCode Available
TADPO: Reinforcement Learning Goes Off-road	Mar 6, 2026	—Unverified
Lyapunov Probes for Hallucination Detection in Large Foundation Models	Mar 6, 2026	—Unverified
GazeMoE: Perception of Gaze Target with Mixture-of-Experts	Mar 6, 2026	—Unverified
How Professional Visual Artists are Negotiating Generative AI in the Workplace	Mar 6, 2026	—Unverified
FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle	Mar 6, 2026	—Unverified
Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries	Mar 6, 2026	—Unverified
Characterizing Evolution in Expectation-Maximization Estimates for Overspecified Mixed Linear Regression	Mar 6, 2026	—Unverified