The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

661,570 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11101–11150 of 661570 papers

Title	Date	Status	Hype
Bayesian Modeling of Collatz Stopping Times: A Probabilistic Machine Learning Perspective	Mar 4, 2026	—Unverified	0
Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG	Mar 4, 2026	—Unverified	0
When AI Fails, What Works? A Data-Driven Taxonomy of Real-World AI Risk Mitigation Strategies	Mar 4, 2026	—Unverified	0
CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field	Mar 4, 2026	—Unverified	0
Why Do Neural Networks Forget: A Study of Collapse in Continual Learning	Mar 4, 2026	—Unverified	0
IoUCert: Robustness Verification for Anchor-based Object Detectors	Mar 4, 2026	—Unverified	0
A Fast Generative Framework for High-dimensional Posterior Sampling: Application to CMB Delensing	Mar 4, 2026	—Unverified	0
ECG-MoE: Mixture-of-Expert Electrocardiogram Foundation Model	Mar 4, 2026	—Unverified	0
Inference-time optimization for experiment-grounded protein ensemble generation	Mar 4, 2026	—Unverified	0
sFRC for assessing hallucinations in medical image restoration	Mar 4, 2026	—Unverified	0
Auto-Adaptive PINNs with Applications to Phase Transitions	Mar 4, 2026	—Unverified	0
Balancing Fidelity, Utility, and Privacy in Synthetic Cardiac MRI Generation: A Comparative Study	Mar 4, 2026	—Unverified	0
Low-Resource Guidance for Controllable Latent Audio Diffusion	Mar 4, 2026	—Unverified	0
The Company You Keep: How LLMs Respond to Dark Triad Traits	Mar 4, 2026	—Unverified	0
CRESTomics: Analyzing Carotid Plaques in the CREST-2 Trial with a New Additive Classification Model	Mar 4, 2026	—Unverified	0
TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning	Mar 4, 2026	—Unverified	0
Query-Level Uncertainty in Large Language Models	Mar 4, 2026	—Unverified	0
UMA: A Family of Universal Models for Atoms	Mar 4, 2026	—Unverified	0
Fast Equivariant Imaging: Acceleration for Unsupervised Learning via Augmented Lagrangian and Auxiliary PnP Denoisers	Mar 4, 2026	—Unverified	0
Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification	Mar 4, 2026	—Unverified	0
ERDES: A Benchmark Video Dataset for Retinal Detachment and Macular Status Classification in Ocular Ultrasound	Mar 4, 2026	—Unverified	0
On the Generalization Limits of Quantum Generative Adversarial Networks with Pure State Generators	Mar 4, 2026	—Unverified	0
Trust Me, I Can Convince You: The Contextualized Argument Appraisal Framework	Mar 4, 2026	—Unverified	0
Benchmarking MLLM-based Web Understanding: Reasoning, Robustness and Safety	Mar 4, 2026	—Unverified	0
Benchmarking ECG FMs: A Reality Check Across Clinical Tasks	Mar 4, 2026	—Unverified	0
Circuit Insights: Towards Interpretability Beyond Activations	Mar 4, 2026	—Unverified	0
ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL Problems	Mar 4, 2026	—Unverified	1
Composition-Grounded Data Synthesis for Visual Reasoning	Mar 4, 2026	—Unverified	0
MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations	Mar 4, 2026	—Unverified	0
SpotIt: Evaluating Text-to-SQL Evaluation with Formal Verification	Mar 4, 2026	—Unverified	0
Cognition Envelopes for Bounded Decision Making in Autonomous UAS Operations	Mar 4, 2026	—Unverified	0
Beyond Mixtures and Products for Ensemble Aggregation: A Likelihood Perspective on Generalized Means	Mar 4, 2026	—Unverified	0
SycoEval-EM: Sycophancy Evaluation of Large Language Models in Simulated Clinical Encounters for Emergency Care	Mar 4, 2026	—Unverified	0
NRR-Phi: Text-to-State Mapping for Ambiguity Preservation in LLM Inference	Mar 4, 2026	—Unverified	0
LUMINA: Foundation Models for Topology Transferable ACOPF	Mar 4, 2026	—Unverified	0
Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction	Mar 4, 2026	—Unverified	0
CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction	Mar 4, 2026	—Unverified	0
Motion Manipulation via Unsupervised Keypoint Positioning in Face Animation	Mar 4, 2026	—Unverified	0
Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild	Mar 4, 2026	—Unverified	0
Beyond Edge Deletion: A Comprehensive Approach to Counterfactual Explanation in Graph Neural Networks	Mar 4, 2026	—Unverified	0
PRAM-R: A Perception-Reasoning-Action-Memory Framework with LLM-Guided Modality Routing for Adaptive Autonomous Driving	Mar 4, 2026	—Unverified	0
Semi-Supervised Generative Learning via Latent Space Distribution Matching	Mar 4, 2026	—Unverified	0
DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers	Mar 4, 2026	—Unverified	0
Agentics 2.0: Logical Transduction Algebra for Agentic Data Workflows	Mar 4, 2026	—Unverified	0
FeedAIde: Guiding App Users to Submit Rich Feedback Reports by Asking Context-Aware Follow-Up Questions	Mar 4, 2026	—Unverified	0
LikeThis! Empowering App Users to Submit UI Improvement Suggestions Instead of Complaints	Mar 4, 2026	—Unverified	0
Online Learning for Multi-Layer Hierarchical Inference under Partial and Policy-Dependent Feedback	Mar 4, 2026	—Unverified	0
Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory	Mar 4, 2026	—Unverified	0
ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos	Mar 4, 2026	—Unverified	0
SSR: A Generic Framework for Text-Aided Map Compression for Localization	Mar 4, 2026	—Unverified	0