The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

661,570 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6401–6450 of 661570 papers

Title	Date	Status
DeceptGuard :A Constitutional Oversight Framework For Detecting Deception in LLM Agents	Mar 14, 2026	—Unverified
IGU-LoRA: Adaptive Rank Allocation via Integrated Gradients and Uncertainty-Aware Scoring	Mar 14, 2026	CodeCode Available
MMOU: A Massive Multi-Task Omni Understanding and Reasoning Benchmark for Long and Complex Real-World Videos	Mar 14, 2026	—Unverified
Boosted GFlowNets: Improving Exploration via Sequential Learning	Mar 14, 2026	—Unverified
Manifold-Orthogonal Dual-spectrum Extrapolation for Parameterized Physics-Informed Neural Networks	Mar 14, 2026	—Unverified
LabelFusion: Fusing Large Language Models with Transformer Encoders for Robust Financial News Classification	Mar 14, 2026	—Unverified
Intelligent Materials Modelling: Large Language Models Versus Partial Least Squares Regression for Predicting Polysulfone Membrane Mechanical Performance	Mar 14, 2026	—Unverified
Hierarchy of extreme-event predictability in turbulence revealed by machine learning	Mar 14, 2026	—Unverified
A Benchmark for Multi-Party Negotiation Games from Real Negotiation Data	Mar 14, 2026	—Unverified
Locally Linear Continual Learning for Time Series based on VC-Theoretical Generalization Bounds	Mar 14, 2026	—Unverified
Beyond Medical Diagnostics: How Medical Multimodal Large Language Models Think in Space	Mar 14, 2026	—Unverified
Toward Scalable Co-located Practical Learning: Assisting with Computer Vision and Multimodal Analytics	Mar 14, 2026	—Unverified
QuarkMedBench: A Real-World Scenario Driven Benchmark for Evaluating Large Language Models	Mar 14, 2026	—Unverified
Concisely Explaining the Doubt: Minimum-Size Abductive Explanations for Linear Models with a Reject Option	Mar 14, 2026	—Unverified
Faithful or Just Plausible? Evaluating the Faithfulness of Closed-Source LLMs in Medical Reasoning	Mar 14, 2026	—Unverified
Bootstrapped Physically-Primed Neural Networks for Robust T2 Distribution Estimation in Low-SNR Pancreatic MRI	Mar 14, 2026	—Unverified
VLD: Visual Language Goal Distance for Reinforcement Learning Navigation	Mar 14, 2026	—Unverified
MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers	Mar 14, 2026	—Unverified
Not All Latent Spaces Are Flat: Hyperbolic Concept Control	Mar 14, 2026	—Unverified
Every Error has Its Magnitude: Asymmetric Mistake Severity Training for Multiclass Multiple Instance Learning	Mar 14, 2026	—Unverified
Robust Self-Training with Closed-loop Label Correction for Learning from Noisy Labels	Mar 14, 2026	—Unverified
Data-driven Progressive Discovery of Physical Laws	Mar 14, 2026	—Unverified
R3-REC: Reasoning-Driven Recommendation via Retrieval-Augmented LLMs over Multi-Granular Interest Signals	Mar 14, 2026	—Unverified
Knowledge Distillation for Large Language Models	Mar 14, 2026	—Unverified
An Interpretable and Stable Framework for Sparse Principal Component Analysis	Mar 14, 2026	—Unverified
An Alternative Trajectory for Generative AI	Mar 14, 2026	—Unverified
High-speed Imaging through Turbulence with Event-based Light Fields	Mar 14, 2026	—Unverified
EchoLVFM: One-Step Video Generation via Latent Flow Matching for Echocardiogram Synthesis	Mar 14, 2026	CodeCode Available
Dynamical Mechanisms for Coordinating Long-term Working Memory Based on the Precision of Spike-timing in Cortical Neurons	Mar 14, 2026	—Unverified
Estimating Text Temperature with Language Models	Mar 14, 2026	—Unverified
Greedy Information Projection for LLM Data Selection	Mar 14, 2026	—Unverified
Balancing Safety and Optimality in Robot Path Planning: Algorithm and Metric	Mar 14, 2026	—Unverified
AVA-Bench: Atomic Visual Ability Benchmark for Vision Foundation Models	Mar 14, 2026	—Unverified
Should LLMs, like, Generate How Users Talk? Building Dialect-Accurate Dialog[ue]s Beyond the American Default with MDial	Mar 14, 2026	—Unverified
Distributed Acoustic Sensing for Urban Traffic Monitoring: Spatio-Temporal Attention in Recurrent Neural Networks	Mar 14, 2026	—Unverified
Close to Reality: Interpretable and Feasible Data Augmentation for Imbalanced Learning	Mar 14, 2026	—Unverified
MOGeo: Beyond One-to-One Cross-View Object Geo-localization	Mar 14, 2026	—Unverified
A Hyperbolic Perspective on Hierarchical Structure in Object-Centric Scene Representations	Mar 14, 2026	CodeCode Available
Understanding the Emergence of Seemingly Useless Features in Next-Token Predictors	Mar 14, 2026	—Unverified
Is He Extroverted? Identifying Missing Relevant Personas for Faithful User Simulation	Mar 14, 2026	—Unverified
Depth to Anatomy: Organ Localization from Depth Images for Automated Patient Table Positioning in Radiology Workflow	Mar 14, 2026	—Unverified
SimLens for Early Exit in Large Language Models: Eliciting Accurate Latent Predictions with One More Token	Mar 14, 2026	—Unverified
AI for Scientific Discovery is a Social Problem	Mar 14, 2026	—Unverified
Induction Signatures Are Not Enough: A Matched-Compute Study of Load-Bearing Structure in In-Context Learning	Mar 14, 2026	—Unverified
Automated Genomic Interpretation via Concept Bottleneck Models for Medical Robotics	Mar 14, 2026	—Unverified
Bid2X: Revealing Dynamics of Bidding Environment in Online Advertising from A Foundation Model Lens	Mar 14, 2026	—Unverified
StreamingTOM: Streaming Token Compression for Efficient Video Understanding	Mar 14, 2026	—Unverified
PAS: A Training-Free Stabilizer for Temporal Encoding in Video LLMs	Mar 14, 2026	—Unverified
ABounD: Adversarial Boundary-Driven Few-Shot Learning for Multi-Class Anomaly Detection	Mar 14, 2026	—Unverified
MSSSeg: Learning Multi-Scale Structural Complexity for Self-Supervised Segmentation	Mar 14, 2026	—Unverified