The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

661,570 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3251–3275 of 661570 papers

Title	Date	Tasks	Status	Hype
Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2	Aug 9, 2024	All	CodeCode Available	3
ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities	Aug 8, 2024		CodeCode Available	3
1.5-Pints Technical Report: Pretraining in Days, Not Months -- Your Language Model Thrives on Quality Data	Aug 7, 2024	16k2k	CodeCode Available	3
Compact 3D Gaussian Splatting for Static and Dynamic Radiance Fields	Aug 7, 2024	3DGSModel Compression	CodeCode Available	3
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine	Aug 6, 2024	Medical Visual Question AnsweringOrgan Detection	CodeCode Available	3
Lighthouse: A User-Friendly Library for Reproducible Video Moment Retrieval and Highlight Detection	Aug 6, 2024	audio moment retrievalHighlight Detection	CodeCode Available	3
Data Poisoning in LLMs: Jailbreak-Tuning and Scaling Laws	Aug 6, 2024	Data Poisoning	CodeCode Available	3
Zero-Shot Surgical Tool Segmentation in Monocular Video Using Segment Anything Model 2	Aug 3, 2024	DiversitySegmentation	CodeCode Available	3
MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models	Aug 2, 2024	Multimodal ReasoningMultiple-choice	CodeCode Available	3
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework	Aug 2, 2024	BenchmarkingDataset Generation	CodeCode Available	3
Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names	Aug 1, 2024		CodeCode Available	3
UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model	Aug 1, 2024		CodeCode Available	3
multiGradICON: A Foundation Model for Multimodal Medical Image Registration	Aug 1, 2024	AnatomyDeep Learning	CodeCode Available	3
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities	Aug 1, 2024	MathMM-Vet	CodeCode Available	3
DriveArena: A Closed-loop Generative Simulation Platform for Autonomous Driving	Aug 1, 2024		CodeCode Available	3
Comgra: A Tool for Analyzing and Debugging Neural Networks	Jul 31, 2024		CodeCode Available	3
Beat this! Accurate beat tracking without DBN postprocessing	Jul 31, 2024	Beat TrackingDownbeat Tracking	CodeCode Available	3
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling	Jul 31, 2024	GSM8KMath	CodeCode Available	3
ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models	Jul 31, 2024	Domain GeneralizationPrompt Learning	CodeCode Available	3
Hyper-parameter tuning for text guided image editing	Jul 31, 2024	text-guided-image-editing	CodeCode Available	3
ReLiK: Retrieve and LinK, Fast and Accurate Entity Linking and Relation Extraction on an Academic Budget	Jul 31, 2024	Document-level Closed Information ExtractionEntity Linking	CodeCode Available	3
Integer-Valued Training and Spike-Driven Inference Spiking Neural Network for High-performance and Energy-efficient Object Detection	Jul 30, 2024	object-detectionObject Detection	CodeCode Available	3
Theia: Distilling Diverse Vision Foundation Models for Robot Learning	Jul 29, 2024		CodeCode Available	3
RelBench: A Benchmark for Deep Learning on Relational Databases	Jul 29, 2024	Deep LearningFeature Engineering	CodeCode Available	3
rLLM: Relational Table Learning with LLMs	Jul 29, 2024	ClassificationNode Classification	CodeCode Available	3