The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9076–9100 of 177340 papers

Title	Date	Tasks	Status	Hype	Score
MetaOpenFOAM: an LLM-based multi-agent framework for CFD	Jul 31, 2024	RAGRetrieval-augmented Generation	CodeCode Available	2	5
PyGen: A Collaborative Human-AI Approach to Python Package Creation	Nov 13, 2024	Code Generation	CodeCode Available	2	5
Disentangling Memory and Reasoning Ability in Large Language Models	Nov 20, 2024	Decision MakingRetrieval	CodeCode Available	2	5
MMGenBench: Evaluating the Limits of LMMs from the Text-to-Image Generation Perspective	Nov 21, 2024	Image ComprehensionImage Generation	CodeCode Available	2	5
vesselFM: A Foundation Model for Universal 3D Blood Vessel Segmentation	Nov 26, 2024	Image SegmentationMedical Image Analysis	CodeCode Available	2	5
TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models	Nov 27, 2024	Garment ReconstructionImage Generation	CodeCode Available	2	5
TexGaussian: Generating High-quality PBR Material via Octree-based 3D Gaussian Splatting	Nov 29, 2024	DenoisingImage Generation	CodeCode Available	2	5
Lost & Found: Tracking Changes from Egocentric Observations in 3D Dynamic Scene Graphs	Nov 28, 2024	Object	CodeCode Available	2	5
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models	Dec 2, 2024	Image GenerationIn-Context Learning	CodeCode Available	2	5
CoRNStack: High-Quality Contrastive Data for Better Code Retrieval and Reranking	Dec 1, 2024	Bug fixingCode Generation	CodeCode Available	2	5
FLAIR: VLM with Fine-grained Language-informed Image Representations	Dec 4, 2024	Language ModelingLanguage Modelling	CodeCode Available	2	5
ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario	Jan 17, 2025		CodeCode Available	2	5
SoRA: Singular Value Decomposed Low-Rank Adaptation for Domain Generalizable Representation Learning	Dec 5, 2024	Domain AdaptationDomain Generalization	CodeCode Available	2	5
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation	Dec 5, 2024	Image ComprehensionRepresentation Learning	CodeCode Available	2	5
JPC: Flexible Inference for Predictive Coding Networks in JAX	Dec 4, 2024		CodeCode Available	2	5
MESA: Effective Matching Redundancy Reduction by Semantic Area Segmentation	Aug 1, 2024	Patch Matching	CodeCode Available	2	5
DriveMM: All-in-One Large Multimodal Model for Autonomous Driving	Dec 10, 2024	AllAutonomous Driving	CodeCode Available	2	5
MAC-Ego3D: Multi-Agent Gaussian Consensus for Real-Time Collaborative Ego-Motion and Photorealistic 3D Reconstruction	Dec 12, 2024	3D ReconstructionMotion Estimation	CodeCode Available	2	5
MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark	Dec 19, 2024	MMLUMultiple-choice	CodeCode Available	2	5
MR-GDINO: Efficient Open-World Continual Object Detection	Dec 20, 2024	Continual Learningobject-detection	CodeCode Available	2	5
Scenario-Wise Rec: A Multi-Scenario Recommendation Benchmark	Dec 23, 2024		CodeCode Available	2	5
EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation	Dec 24, 2024	Image CaptioningImage Generation	CodeCode Available	2	5
Test-time Computing: from System-1 Thinking to System-2 Thinking	Jan 5, 2025		CodeCode Available	2	5
TakuNet: an Energy-Efficient CNN for Real-Time Inference on Embedded UAV systems in Emergency Response Scenarios	Jan 10, 2025	Aerial Scene ClassificationCPU	CodeCode Available	2	5
Russian Financial Statements Database: A firm-level collection of the universe of financial statements	Jan 10, 2025	Imputation	CodeCode Available	2	5