The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

661,570 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5301–5325 of 661570 papers

Title	Date	Tasks	Status	Hype
ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback	May 23, 2025		CodeCode Available	2
Ranked Entropy Minimization for Continual Test-Time Adaptation	May 22, 2025	Test-time Adaptation	CodeCode Available	2
SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward	May 22, 2025	Reinforcement Learning (RL)	CodeCode Available	2
WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning	May 22, 2025	MathReinforcement Learning (RL)	CodeCode Available	2
Training Long-Context LLMs Efficiently via Chunk-wise Optimization	May 22, 2025	16kGPU	CodeCode Available	2
GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent	May 22, 2025		CodeCode Available	2
SEED: Speaker Embedding Enhancement Diffusion Model	May 22, 2025	modelSpeaker Recognition	CodeCode Available	2
GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning	May 22, 2025	AttributeImage Generation	CodeCode Available	2
Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models	May 22, 2025	Reinforcement Learning (RL)	CodeCode Available	2
QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design	May 22, 2025	CPUGPU	CodeCode Available	2
Seeing through Satellite Images at Street Views	May 22, 2025		CodeCode Available	2
DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution	May 22, 2025	Super-ResolutionVideo Super-Resolution	CodeCode Available	2
SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development	May 22, 2025	Bug fixingChatbot	CodeCode Available	2
Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation	May 22, 2025	Autonomous DrivingOut-of-Distribution Detection	CodeCode Available	2
Structure-Aligned Protein Language Model	May 22, 2025	Contrastive LearningLanguage Modeling	CodeCode Available	2
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding	May 22, 2025	Motion EstimationQuestion Answering	CodeCode Available	2
ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay	May 22, 2025	reinforcement-learningReinforcement Learning	CodeCode Available	2
Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding	May 22, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning	May 21, 2025	MathMathematical Reasoning	CodeCode Available	2
Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization	May 21, 2025	Vision-Language-ActionZero-shot Generalization	CodeCode Available	2
The P^3 dataset: Pixels, Points and Polygons for Multimodal Building Vectorization	May 21, 2025		CodeCode Available	2
Learn to Reason Efficiently with Adaptive Length-based Reward Shaping	May 21, 2025	Reinforcement Learning (RL)	CodeCode Available	2
InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition	May 21, 2025	Earth ObservationObject	CodeCode Available	2
Moonbeam: A MIDI Foundation Model Using Both Absolute and Relative Music Attributes	May 21, 2025	Music ClassificationMusic Generation	CodeCode Available	2
ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning	May 21, 2025	Conversational Searchreinforcement-learning	CodeCode Available	2