The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

661,570 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3676–3700 of 661570 papers

Title	Date	Status
Evaluating Counterfactual Strategic Reasoning in Large Language Models	Mar 19, 2026	—Unverified
AIMER: Calibration-Free Task-Agnostic MoE Pruning	Mar 19, 2026	—Unverified
Remove360: Benchmarking Residuals After Object Removal in 3D Gaussian Splatting	Mar 19, 2026	—Unverified
LLM-Augmented Changepoint Detection: A Framework for Ensemble Detection and Automated Explanation	Mar 19, 2026	—Unverified
BVSIMC: Bayesian Variable Selection-Guided Inductive Matrix Completion for Improved and Interpretable Drug Discovery	Mar 19, 2026	—Unverified
HypeMed: Enhancing Medication Recommendations with Hypergraph-Based Patient Relationships	Mar 19, 2026	—Unverified
Interpretable Prostate Cancer Detection using a Small Cohort of MRI Images	Mar 19, 2026	—Unverified
NeuroGame Transformer: Gibbs-Inspired Attention Driven by Game Theory and Statistical Physics	Mar 19, 2026	CodeCode Available
Implicit Grading Bias in Large Language Models: How Writing Style Affects Automated Assessment Across Math, Programming, and Essay Tasks	Mar 19, 2026	—Unverified
Progressive Training for Explainable Citation-Grounded Dialogue: Reducing Hallucination to Zero in English-Hindi LLMs	Mar 19, 2026	—Unverified
DaPT: A Dual-Path Framework for Multilingual Multi-hop Question Answering	Mar 19, 2026	—Unverified
GSMem: 3D Gaussian Splatting as Persistent Spatial Memory for Zero-Shot Embodied Exploration and Reasoning	Mar 19, 2026	—Unverified
Meanings and Measurements: Multi-Agent Probabilistic Grounding for Vision-Language Navigation	Mar 19, 2026	—Unverified
OS-Themis: A Scalable Critic Framework for Generalist GUI Rewards	Mar 19, 2026	—Unverified
Evaluating Game Difficulty in Tetris Block Puzzle	Mar 19, 2026	—Unverified
On Optimizing Multimodal Jailbreaks for Spoken Language Models	Mar 19, 2026	—Unverified
Words at Play: Benchmarking Audio Pun Understanding in Large Audio-Language Models	Mar 19, 2026	—Unverified
DSPO: Stable and Efficient Policy Optimization for Agentic Search and Reasoning	Mar 19, 2026	—Unverified
DriveSplat: Unified Neural Gaussian Reconstruction for Dynamic Driving Scenes	Mar 19, 2026	—Unverified
A Unified Generalization Framework for Model Merging: Trade-offs, Non-Linearity, and Scaling Laws	Mar 19, 2026	—Unverified
Is Hierarchical Quantization Essential for Optimal Reconstruction?	Mar 19, 2026	—Unverified
RE-SAC: Disentangling aleatoric and epistemic risks in bus fleet control: A stable and robust ensemble DRL approach	Mar 19, 2026	—Unverified
Discounted Beta--Bernoulli Reward Estimation for Sample-Efficient Reinforcement Learning with Verifiable Rewards	Mar 19, 2026	—Unverified
GAPSL: A Gradient-Aligned Parallel Split Learning on Heterogeneous Data	Mar 19, 2026	—Unverified
Transformers Learn Robust In-Context Regression under Distributional Uncertainty	Mar 19, 2026	—Unverified