The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

659,983 papers248,104 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 676–700 of 659983 papers

Title	Date	Tasks	Status	Hype
LeVo: High-Quality Song Generation with Multi-Preference Alignment	Jun 9, 2025	Instruction FollowingMusic Generation	CodeCode Available	5
Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models	Jun 5, 2025	RerankingRetrieval	CodeCode Available	5
AssetOpsBench: Benchmarking AI Agents for Task Automation in Industrial Asset Operations and Maintenance	Jun 4, 2025	BenchmarkingScheduling	CodeCode Available	5
Trajectory Prediction Meets Large Language Models: A Survey	Jun 3, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning	Jun 2, 2025	AI AgentDiversity	CodeCode Available	5
OmniV2V: Versatile Video Generation and Editing via Dynamic Content Manipulation	Jun 2, 2025	Data AugmentationHuman Animation	CodeCode Available	5
EvoGit: Decentralized Code Evolution via Git-Based Multi-Agent Collaboration	Jun 1, 2025		CodeCode Available	5
R-KV: Redundancy-aware KV Cache Compression for Training-Free Reasoning Models Acceleration	May 30, 2025	Mathematical Reasoning	CodeCode Available	5
REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards	May 30, 2025	reinforcement-learningReinforcement Learning	CodeCode Available	5
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models	May 30, 2025	Reinforcement Learning (RL)	CodeCode Available	5
Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents	May 29, 2025	Meta-Learning	CodeCode Available	5
Autoformalization in the Era of Large Language Models: A Survey	May 29, 2025	Automated Theorem Proving	CodeCode Available	5
rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset	May 27, 2025		CodeCode Available	5
FunReason: Enhancing Large Language Models' Function Calling via Self-Refinement Multiscale Loss and Automated Data Refinement	May 26, 2025		CodeCode Available	5
Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models	May 24, 2025	Position	CodeCode Available	5
BLAST: Balanced Sampling Time Series Corpus for Universal Forecasting Models	May 23, 2025	DiversityTime Series	CodeCode Available	5
Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention	May 23, 2025	3D Generation3D geometry	CodeCode Available	5
NovelSeek: When Agent Becomes the Scientist -- Building Closed-Loop System from Hypothesis to Verification	May 22, 2025	2D Semantic SegmentationActivity Prediction	CodeCode Available	5
SoftHGNN: Soft Hypergraph Neural Networks for General Visual Recognition	May 21, 2025		CodeCode Available	5
Benchmarking the Myopic Trap: Positional Bias in Information Retrieval	May 20, 2025	BenchmarkingInformation Retrieval	CodeCode Available	5
DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning	May 20, 2025	HallucinationMathematical Reasoning	CodeCode Available	5
Meta-World+: An Improved, Standardized, RL Benchmark	May 16, 2025	Meta Reinforcement Learningreinforcement-learning	CodeCode Available	5
Group-in-Group Policy Optimization for LLM Agent Training	May 16, 2025	GPUMathematical Reasoning	CodeCode Available	5
BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset	May 14, 2025	Image Generation	CodeCode Available	5
DanceGRPO: Unleashing GRPO on Visual Generation	May 12, 2025	Denoisingreinforcement-learning	CodeCode Available	5