The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

659,983 papers248,104 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 476–500 of 659983 papers

Title	Date	Status
Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments	Mar 24, 2026	—Unverified
Flying Pigs, FaR and Beyond: Evaluating LLM Reasoning in Counterfactual Worlds	Mar 24, 2026	—Unverified
PRISM: Video Dataset Condensation with Progressive Refinement and Insertion for Sparse Motion	Mar 24, 2026	—Unverified
Decorrelation, Diversity, and Emergent Intelligence: The Isomorphism Between Social Insect Colonies and Ensemble Machine Learning	Mar 24, 2026	—Unverified
Inverting Neural Networks: New Methods to Generate Neural Network Inputs from Prescribed Outputs	Mar 24, 2026	—Unverified
When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning	Mar 24, 2026	—Unverified
Test-Time Adaptation via Cache Personalization for Facial Expression Recognition in Videos	Mar 24, 2026	—Unverified
TimeTox: An LLM-Based Pipeline for Automated Extraction of Time Toxicity from Clinical Trial Protocols	Mar 24, 2026	—Unverified
A transformer architecture alteration to incentivise externalised reasoning	Mar 24, 2026	—Unverified
Bounding Box Anomaly Scoring for simple and efficient Out-of-Distribution detection	Mar 24, 2026	—Unverified
Improving LLM Predictions via Inter-Layer Structural Encoders	Mar 24, 2026	—Unverified
Vision-based Deep Learning Analysis of Unordered Biomedical Tabular Datasets via Optimal Spatial Cartography	Mar 24, 2026	—Unverified
MuQ-Eval: An Open-Source Per-Sample Quality Metric for AI Music Generation Evaluation	Mar 24, 2026	—Unverified
Voice Privacy from an Attribute-based Perspective	Mar 24, 2026	—Unverified
PopResume: Causal Fairness Evaluation of LLM/VLM Resume Screeners with Population-Representative Dataset	Mar 24, 2026	—Unverified
SOUPLE: Enhancing Audio-Visual Localization and Segmentation with Learnable Prompt Contexts	Mar 24, 2026	—Unverified
Exposure-Normalized Bed and Chair Fall Rates via Continuous AI Monitoring	Mar 24, 2026	—Unverified
Conditionally Identifiable Latent Representation for Multivariate Time Series with Structural Dynamics	Mar 24, 2026	—Unverified
Stepwise Variational Inference with Vine Copulas	Mar 24, 2026	—Unverified
Asymptotic Learning Curves for Diffusion Models with Random Features Score and Manifold Data	Mar 24, 2026	—Unverified
A Critical Review on the Effectiveness and Privacy Threats of Membership Inference Attacks	Mar 24, 2026	—Unverified
Robustness Quantification and Uncertainty Quantification: Comparing Two Methods for Assessing the Reliability of Classifier Predictions	Mar 24, 2026	—Unverified
VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models	Mar 24, 2026	—Unverified
Minibal: Balanced Game-Playing Without Opponent Modeling	Mar 24, 2026	—Unverified
Efficient Benchmarking of AI Agents	Mar 24, 2026	—Unverified