The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

661,570 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2101–2125 of 661570 papers

Title	Date	Tasks	Status	Hype
AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society	Feb 12, 2025		CodeCode Available	4
Expressive Whole-Body 3D Gaussian Avatar	Jul 31, 2024	3DGSDiversity	CodeCode Available	4
An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition	Jul 21, 2015	Optical Character Recognition (OCR)Scene Text Recognition	CodeCode Available	4
SiamMask: A Framework for Fast Online Object Tracking and Segmentation	Jul 5, 2022	Multiple Object TrackingObject	CodeCode Available	4
RewardBench 2: Advancing Reward Model Evaluation	Jun 2, 2025	Instruction Followingmodel	CodeCode Available	4
VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning	Jun 20, 2025	NavigateVision-Language Navigation	CodeCode Available	4
HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation	Mar 15, 2024		CodeCode Available	4
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits	Feb 27, 2024	All	CodeCode Available	4
SAT: Dynamic Spatial Aptitude Training for Multimodal Language Models	Dec 10, 2024	Action RecognitionSpatial Reasoning	CodeCode Available	4
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL	Mar 10, 2025	Logical ReasoningMultimodal Reasoning	CodeCode Available	4
UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation	Jun 3, 2025	Image Editing	CodeCode Available	4
Unified Reward Model for Multimodal Understanding and Generation	Mar 7, 2025	Image Generationmodel	CodeCode Available	4
TorchRL: A data-driven decision-making library for PyTorch	Jun 1, 2023	Computational EfficiencyDecision Making	CodeCode Available	4
What Makes Good In-Context Examples for GPT-3?	Jan 17, 2021	Few-Shot LearningNatural Language Understanding	CodeCode Available	4
LLM Comparator: Visual Analytics for Side-by-Side Evaluation of Large Language Models	Feb 16, 2024		CodeCode Available	4
AGS-Mesh: Adaptive Gaussian Splatting and Meshing with Geometric Priors for Indoor Room Reconstruction Using Smartphones	Nov 28, 2024	3D ReconstructionNovel View Synthesis	CodeCode Available	4
TOFU: A Task of Fictitious Unlearning for LLMs	Jan 11, 2024		CodeCode Available	4
Sundial: A Family of Highly Capable Time Series Foundation Models	Feb 2, 2025	Representation LearningTime Series	CodeCode Available	4
FP8 Formats for Deep Learning	Sep 12, 2022	Deep LearningQuantization	CodeCode Available	4
Gaussian Splatting SLAM	Dec 11, 2023	3DGS3D Reconstruction	CodeCode Available	4
Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers	Feb 29, 2024	RetrievalText Retrieval	CodeCode Available	4
Fairness Implications of Encoding Protected Categorical Attributes	Jan 27, 2022	FairnessFeature Engineering	CodeCode Available	4
Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models	Jun 3, 2024	Language ModelingLanguage Modelling	CodeCode Available	4
LISA++: An Improved Baseline for Reasoning Segmentation with Large Language Model	Dec 28, 2023	Instance SegmentationLanguage Modeling	CodeCode Available	4
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention	Apr 10, 2024	Book summarizationLanguage Modeling	CodeCode Available	4