The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6276–6300 of 474278 papers

Title	Date	Status
LongCat-Image Technical Report	Dec 8, 2025	—Unverified
On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models	Dec 8, 2025	—Unverified
DeepCode: Open Agentic Coding	Dec 8, 2025	—Unverified
FLEX: Continuous Agent Evolution via Forward Learning from Experience	Dec 8, 2025	—Unverified
Towards Accurate UAV Image Perception: Guiding Vision-Language Models with Stronger Task Prompts	Dec 8, 2025	CodeCode Available
Reasoning Under Pressure: How do Training Incentives Influence Chain-of-Thought Monitorability?	Dec 8, 2025	CodeCode Available
How Far are Modern Trackers from UAV-Anti-UAV? A Million-Scale Benchmark and New Baseline	Dec 8, 2025	—Unverified
Relational Visual Similarity	Dec 8, 2025	—Unverified
ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning	Dec 8, 2025	CodeCode Available
A Large-Scale Multimodal Dataset and Benchmarks for Human Activity Scene Understanding and Reasoning	Dec 8, 2025	CodeCode Available
FinWorld: An All-in-One Open-Source Platform for End-to-End Financial AI Research and Deployment	Dec 8, 2025	CodeCode Available
InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization	Dec 8, 2025	CodeCode Available
LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild	Dec 8, 2025	CodeCode Available
QiMeng-SALV: Signal-Aware Learning for Verilog Code Generation	Dec 8, 2025	CodeCode Available
MCMoE: Completing Missing Modalities with Mixture of Experts for Incomplete Multimodal Action Quality Assessment	Dec 8, 2025	CodeCode Available
Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models	Dec 8, 2025	CodeCode Available
MM-ACT: Learn from Multimodal Parallel Generation to Act	Dec 8, 2025	CodeCode Available
Know-Show: Benchmarking Video-Language Models on Spatio-Temporal Grounded Reasoning	Dec 8, 2025	CodeCode Available
VOST-SGG: VLM-Aided One-Stage Spatio-Temporal Scene Graph Generation	Dec 8, 2025	CodeCode Available
PlantBiMoE: A Bidirectional Foundation Model with SparseMoE for Plant Genomes	Dec 8, 2025	CodeCode Available
Mimir: Hierarchical Goal-Driven Diffusion with Uncertainty Propagation for End-to-End Autonomous Driving	Dec 8, 2025	CodeCode Available
Unified Camera Positional Encoding for Controlled Video Generation	Dec 8, 2025	CodeCode Available
M-STAR: Multi-Scale Spatiotemporal Autoregression for Human Mobility Modeling	Dec 8, 2025	CodeCode Available
ControlVP: Interactive Geometric Refinement of AI-Generated Images with Consistent Vanishing Points	Dec 8, 2025	CodeCode Available
Unified Video Editing with Temporal Reasoner	Dec 8, 2025	CodeCode Available