The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

659,983 papers248,104 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–675 of 659983 papers

Title	Date	Tasks	Status	Hype
Helios: Real Real-Time Long Video Generation Model	Mar 4, 2026		—Unverified	5
Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters	Feb 23, 2026		—Unverified	5
Rethinking the Design of Reinforcement Learning-Based Deep Research Agents	Feb 21, 2026		—Unverified	5
World Action Models are Zero-shot Policies	Feb 17, 2026		—Unverified	5
OpenTSLM: Time-Series Language Models for Reasoning over Multivariate Medical Text- and Time-Series Data	Feb 14, 2026		—Unverified	5
FireRed-Image-Edit-1.0 Technical Report	Feb 12, 2026		—Unverified	5
InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery	Feb 9, 2026		—Unverified	5
CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning	Feb 5, 2026		—Unverified	5
MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE	Feb 4, 2026		—Unverified	5
Kimi K2.5: Visual Agentic Intelligence	Feb 2, 2026		—Unverified	5
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey	Jan 24, 2026		—Unverified	5
SAMTok: Representing Any Mask with Two Words	Jan 22, 2026		—Unverified	5
UQLM: A Python Package for Uncertainty Quantification in Large Language Models	Jul 8, 2025	HallucinationUncertainty Quantification	CodeCode Available	5
skfolio: Portfolio Optimization in Python	Jul 5, 2025	ManagementPortfolio Optimization	CodeCode Available	5
Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers	Jun 30, 2025	Multimodal Reasoning	CodeCode Available	5
RAG-R1 : Incentivize the Search and Reasoning Capabilities of LLMs through Multi-query Parallelism	Jun 30, 2025	Question AnsweringRAG	CodeCode Available	5
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing	Jun 26, 2025	Audio GenerationLarge Language Model	CodeCode Available	5
LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning	Jun 23, 2025	Reinforcement Learning (RL)Text Generation	CodeCode Available	5
Matrix-Game: Interactive World Foundation Model	Jun 23, 2025	Minecraftmodel	CodeCode Available	5
YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception	Jun 21, 2025	Computational Efficiencyobject-detection	CodeCode Available	5
Show-o2: Improved Native Unified Multimodal Models	Jun 18, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model	Jun 16, 2025	Large Language Modelmultimodal interaction	CodeCode Available	5
SoundMind: RL-Incentivized Logic Reasoning for Audio-Language Models	Jun 15, 2025	Logical ReasoningReinforcement Learning (RL)	CodeCode Available	5
A quantum semantic framework for natural language processing	Jun 11, 2025		CodeCode Available	5
τ^2-Bench: Evaluating Conversational Agents in a Dual-Control Environment	Jun 9, 2025	AI Agent	CodeCode Available	5