The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

659,983 papers248,104 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2551–2600 of 659983 papers

Title	Date	Status	Hype
OccTENS: 3D Occupancy World Model via Temporal Next-Scale Prediction	Mar 18, 2026	—Unverified	0
Human Psychometric Questionnaires Mischaracterize LLM Psychology: Evidence from Generation Behavior	Mar 18, 2026	—Unverified	0
Exact Generalisation Error Exposes Benchmarks Skew Graph Neural Networks Success (or Failure)	Mar 18, 2026	—Unverified	0
InPhyRe Discovers: Large Multimodal Models Struggle in Inductive Physical Reasoning	Mar 18, 2026	—Unverified	0
Diagonal Linear Networks and the Lasso Regularization Path	Mar 18, 2026	—Unverified	0
See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles	Mar 18, 2026	CodeCode Available	0
Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation	Mar 18, 2026	—Unverified	0
IA2: Alignment with ICL Activations Improves Supervised Fine-Tuning	Mar 18, 2026	—Unverified	0
M3DLayout: A Multi-Source Dataset of 3D Indoor Layouts and Structured Descriptions for 3D Generation	Mar 18, 2026	—Unverified	0
In-Context Compositional Q-Learning for Offline Reinforcement Learning	Mar 18, 2026	—Unverified	0
Personalized Motion Guidance Framework for Athlete-Centric Coaching	Mar 18, 2026	—Unverified	0
LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology	Mar 18, 2026	—Unverified	0
Vector sketch animation generation with differentiable motion trajectories	Mar 18, 2026	—Unverified	0
Assessing LLM Reasoning Through Implicit Causal Chain Discovery in Climate Discourse	Mar 18, 2026	—Unverified	0
Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models	Mar 18, 2026	—Unverified	1
Scalable Energy-Based Models via Adversarial Training: Unifying Discrimination and Generation	Mar 18, 2026	—Unverified	0
CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions	Mar 18, 2026	—Unverified	0
Learning Time-Varying Graphs from Incomplete Graph Signals	Mar 18, 2026	—Unverified	0
Automated Wicket-Taking Delivery Segmentation and Trajectory-Based Dismissal-Zone Analysis in Cricket Videos Using OCR-Guided YOLOv8	Mar 18, 2026	—Unverified	0
Communication to Completion: Modeling Collaborative Workflows with Intelligent Multi-Agent Communication	Mar 18, 2026	—Unverified	0
SHAP Meets Tensor Networks: Provably Tractable Explanations with Parallelism	Mar 18, 2026	—Unverified	0
From Slides to Chatbots: Enhancing Large Language Models with University Course Materials	Mar 18, 2026	—Unverified	0
Frame Semantic Patterns for Identifying Underreporting of Notifiable Events in Healthcare: The Case of Gender-Based Violence	Mar 18, 2026	—Unverified	0
Towards One-step Causal Video Generation via Adversarial Self-Distillation	Mar 18, 2026	—Unverified	0
Generative Hints	Mar 18, 2026	—Unverified	0
Silenced Biases: The Dark Side LLMs Learned to Refuse	Mar 18, 2026	—Unverified	0
Semi-supervised Shelter Mapping for WASH Accessibility Assessment in Rohingya Refugee Camps	Mar 18, 2026	—Unverified	0
Reduced Density Matrices Through Machine Learning	Mar 18, 2026	—Unverified	0
Safety-Preserving PTQ via Contrastive Alignment Loss	Mar 18, 2026	—Unverified	0
A robust methodology for long-term sustainability evaluation of Machine Learning models	Mar 18, 2026	—Unverified	0
Aligning Probabilistic Beliefs under Informative Missingness: LLM Steerability in Clinical Reasoning	Mar 18, 2026	—Unverified	0
MagicWorld: Towards Long-Horizon Stability for Interactive Video World Exploration	Mar 18, 2026	—Unverified	0
Neighbor GRPO: Contrastive ODE Policy Optimization Aligns Flow Models	Mar 18, 2026	—Unverified	0
WPT: World-to-Policy Transfer via Online World Model Distillation	Mar 18, 2026	—Unverified	0
IRIS-SLAM: Unified Geo-Instance Representations for Robust Semantic Localization and Mapping	Mar 18, 2026	—Unverified	0
Vision to Geometry: 3D Spatial Memory for Sequential Embodied MLLM Reasoning and Exploration	Mar 18, 2026	—Unverified	0
NRR-Core: Non-Resolution Reasoning as a Computational Framework for Contextual Identity and Ambiguity Preservation	Mar 18, 2026	—Unverified	0
RADAR: Retrieval-Augmented Detector with Adversarial Refinement for Robust Fake News Detection	Mar 18, 2026	—Unverified	0
A Comedy of Estimators: On KL Regularization in RL Training of LLMs	Mar 18, 2026	—Unverified	0
VL-RouterBench: A Benchmark for Vision-Language Model Routing	Mar 18, 2026	—Unverified	0
EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning	Mar 18, 2026	—Unverified	0
What Patients Really Ask: Exploring the Effect of False Assumptions in Patient Information Seeking	Mar 18, 2026	—Unverified	0
Generative Adversarial Networks for Resource State Generation	Mar 18, 2026	—Unverified	0
EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation	Mar 18, 2026	—Unverified	0
APEX-SWE	Mar 18, 2026	—Unverified	0
PaperScout: An Autonomous Agent for Academic Paper Search with Process-Aware Sequence-Level Policy Optimization	Mar 18, 2026	—Unverified	0
GTS: Inference-Time Scaling of Latent Reasoning with a Learnable Gaussian Thought Sampler	Mar 18, 2026	—Unverified	0
Digital FAST: An AI-Driven Multimodal Framework for Rapid and Early Stroke Screening	Mar 18, 2026	—Unverified	0
YOLO26: An Analysis of NMS-Free End to End Framework for Real-Time Object Detection	Mar 18, 2026	—Unverified	0
Unifying Heterogeneous Degradations: Uncertainty-Aware Diffusion Bridge Model for All-in-One Image Restoration	Mar 18, 2026	—Unverified	0