The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

661,570 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5101–5125 of 661570 papers

Title	Date	Tasks	Status	Hype
Efficient Speech Enhancement via Embeddings from Pre-trained Generative Audioencoders	Jun 13, 2025	Speech Enhancement	CodeCode Available	2
CGVQM+D: Computer Graphics Video Quality Metric and Dataset	Jun 13, 2025	DenoisingNovel View Synthesis	CodeCode Available	2
Statistical Machine Learning for Astronomy -- A Textbook	Jun 13, 2025	AstronomyBayesian Inference	CodeCode Available	2
CreatiPoster: Towards Editable and Controllable Multi-Layer Graphic Design Generation	Jun 12, 2025		CodeCode Available	2
VideoDeepResearch: Long Video Understanding With Agentic Tool Using	Jun 12, 2025	MMEVideo MME	CodeCode Available	2
SDialog: A Python Toolkit for Synthetic Dialogue Generation and Analysis	Jun 12, 2025	BenchmarkingDialogue Generation	CodeCode Available	2
Time Series Forecasting as Reasoning: A Slow-Thinking Approach with Reinforced LLMs	Jun 12, 2025	PhilosophyPrompt Engineering	CodeCode Available	2
Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs	Jun 12, 2025	Diversity	CodeCode Available	2
ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark	Jun 12, 2025		CodeCode Available	2
GLAP: General contrastive audio-text pretraining across domains and languages	Jun 12, 2025	AudioCapsKeyword Spotting	CodeCode Available	2
ConTextTab: A Semantics-Aware Tabular In-Context Learner	Jun 12, 2025	In-Context LearningWorld Knowledge	CodeCode Available	2
SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks	Jun 12, 2025	GitHub issue resolutionvalid	CodeCode Available	2
Execution Guided Line-by-Line Code Generation	Jun 12, 2025	Code Generation	CodeCode Available	2
AutoMind: Adaptive Knowledgeable Agent for Automated Data Science	Jun 12, 2025	Code GenerationLarge Language Model	CodeCode Available	2
TableRAG: A Retrieval Augmented Generation Framework for Heterogeneous Document Reasoning	Jun 12, 2025	Answer GenerationChunking	CodeCode Available	2
OPT-BENCH: Evaluating LLM Agent on Large-Scale Search Spaces Optimization Problems	Jun 12, 2025		CodeCode Available	2
QuadricFormer: Scene as Superquadrics for 3D Semantic Occupancy Prediction	Jun 12, 2025	3D Semantic Occupancy PredictionAutonomous Driving	CodeCode Available	2
ReID5o: Achieving Omni Multi-modal Person Re-identification in a Single Model	Jun 11, 2025	cross-modal alignmentDescriptive	CodeCode Available	2
SkillBlender: Towards Versatile Humanoid Whole-Body Loco-Manipulation via Skill Blending	Jun 11, 2025	Hierarchical Reinforcement LearningHumanoid Control	CodeCode Available	2
Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing	Jun 11, 2025	Multimodal ReasoningSpatial Reasoning	CodeCode Available	2
CoRT: Code-integrated Reasoning within Thinking	Jun 11, 2025	Mathematical Reasoning	CodeCode Available	2
CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models	Jun 11, 2025	counterfactualDescriptive	CodeCode Available	2
TaskCraft: Automated Generation of Agentic Tasks	Jun 11, 2025		CodeCode Available	2
ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning	Jun 11, 2025	Medical Question AnsweringQuestion Answering	CodeCode Available	2
IntPhys 2: Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments	Jun 11, 2025	Benchmarking	CodeCode Available	2