The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

659,983 papers248,104 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–700 of 659983 papers

Title	Date	Tasks	Status	Hype
Helios: Real Real-Time Long Video Generation Model	Mar 4, 2026		—Unverified	5
Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters	Feb 23, 2026		—Unverified	5
Rethinking the Design of Reinforcement Learning-Based Deep Research Agents	Feb 21, 2026		—Unverified	5
World Action Models are Zero-shot Policies	Feb 17, 2026		—Unverified	5
OpenTSLM: Time-Series Language Models for Reasoning over Multivariate Medical Text- and Time-Series Data	Feb 14, 2026		—Unverified	5
FireRed-Image-Edit-1.0 Technical Report	Feb 12, 2026		—Unverified	5
InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery	Feb 9, 2026		—Unverified	5
CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning	Feb 5, 2026		—Unverified	5
MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE	Feb 4, 2026		—Unverified	5
Kimi K2.5: Visual Agentic Intelligence	Feb 2, 2026		—Unverified	5
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey	Jan 24, 2026		—Unverified	5
SAMTok: Representing Any Mask with Two Words	Jan 22, 2026		—Unverified	5
UQLM: A Python Package for Uncertainty Quantification in Large Language Models	Jul 8, 2025	HallucinationUncertainty Quantification	CodeCode Available	5
skfolio: Portfolio Optimization in Python	Jul 5, 2025	ManagementPortfolio Optimization	CodeCode Available	5
Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers	Jun 30, 2025	Multimodal Reasoning	CodeCode Available	5
RAG-R1 : Incentivize the Search and Reasoning Capabilities of LLMs through Multi-query Parallelism	Jun 30, 2025	Question AnsweringRAG	CodeCode Available	5
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing	Jun 26, 2025	Audio GenerationLarge Language Model	CodeCode Available	5
LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning	Jun 23, 2025	Reinforcement Learning (RL)Text Generation	CodeCode Available	5
Matrix-Game: Interactive World Foundation Model	Jun 23, 2025	Minecraftmodel	CodeCode Available	5
YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception	Jun 21, 2025	Computational Efficiencyobject-detection	CodeCode Available	5
Show-o2: Improved Native Unified Multimodal Models	Jun 18, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model	Jun 16, 2025	Large Language Modelmultimodal interaction	CodeCode Available	5
SoundMind: RL-Incentivized Logic Reasoning for Audio-Language Models	Jun 15, 2025	Logical ReasoningReinforcement Learning (RL)	CodeCode Available	5
A quantum semantic framework for natural language processing	Jun 11, 2025		CodeCode Available	5
τ^2-Bench: Evaluating Conversational Agents in a Dual-Control Environment	Jun 9, 2025	AI Agent	CodeCode Available	5
LeVo: High-Quality Song Generation with Multi-Preference Alignment	Jun 9, 2025	Instruction FollowingMusic Generation	CodeCode Available	5
Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models	Jun 5, 2025	RerankingRetrieval	CodeCode Available	5
AssetOpsBench: Benchmarking AI Agents for Task Automation in Industrial Asset Operations and Maintenance	Jun 4, 2025	BenchmarkingScheduling	CodeCode Available	5
Trajectory Prediction Meets Large Language Models: A Survey	Jun 3, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning	Jun 2, 2025	AI AgentDiversity	CodeCode Available	5
OmniV2V: Versatile Video Generation and Editing via Dynamic Content Manipulation	Jun 2, 2025	Data AugmentationHuman Animation	CodeCode Available	5
EvoGit: Decentralized Code Evolution via Git-Based Multi-Agent Collaboration	Jun 1, 2025		CodeCode Available	5
R-KV: Redundancy-aware KV Cache Compression for Training-Free Reasoning Models Acceleration	May 30, 2025	Mathematical Reasoning	CodeCode Available	5
REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards	May 30, 2025	reinforcement-learningReinforcement Learning	CodeCode Available	5
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models	May 30, 2025	Reinforcement Learning (RL)	CodeCode Available	5
Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents	May 29, 2025	Meta-Learning	CodeCode Available	5
Autoformalization in the Era of Large Language Models: A Survey	May 29, 2025	Automated Theorem Proving	CodeCode Available	5
rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset	May 27, 2025		CodeCode Available	5
FunReason: Enhancing Large Language Models' Function Calling via Self-Refinement Multiscale Loss and Automated Data Refinement	May 26, 2025		CodeCode Available	5
Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models	May 24, 2025	Position	CodeCode Available	5
BLAST: Balanced Sampling Time Series Corpus for Universal Forecasting Models	May 23, 2025	DiversityTime Series	CodeCode Available	5
Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention	May 23, 2025	3D Generation3D geometry	CodeCode Available	5
NovelSeek: When Agent Becomes the Scientist -- Building Closed-Loop System from Hypothesis to Verification	May 22, 2025	2D Semantic SegmentationActivity Prediction	CodeCode Available	5
SoftHGNN: Soft Hypergraph Neural Networks for General Visual Recognition	May 21, 2025		CodeCode Available	5
Benchmarking the Myopic Trap: Positional Bias in Information Retrieval	May 20, 2025	BenchmarkingInformation Retrieval	CodeCode Available	5
DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning	May 20, 2025	HallucinationMathematical Reasoning	CodeCode Available	5
Meta-World+: An Improved, Standardized, RL Benchmark	May 16, 2025	Meta Reinforcement Learningreinforcement-learning	CodeCode Available	5
Group-in-Group Policy Optimization for LLM Agent Training	May 16, 2025	GPUMathematical Reasoning	CodeCode Available	5
BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset	May 14, 2025	Image Generation	CodeCode Available	5
DanceGRPO: Unleashing GRPO on Visual Generation	May 12, 2025	Denoisingreinforcement-learning	CodeCode Available	5