The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

661,570 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5126–5150 of 661570 papers

Title	Date	Tasks	Status	Hype
A Call for Collaborative Intelligence: Why Human-Agent Systems Should Precede AI Autonomy	Jun 11, 2025		CodeCode Available	2
Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning	Jun 11, 2025	Image CaptioningMath	CodeCode Available	2
UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting	Jun 11, 2025	DiversityRepresentation Learning	CodeCode Available	2
CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models	Jun 11, 2025	counterfactualDescriptive	CodeCode Available	2
ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning	Jun 11, 2025	Medical Question AnsweringQuestion Answering	CodeCode Available	2
TaskCraft: Automated Generation of Agentic Tasks	Jun 11, 2025		CodeCode Available	2
Tightly-Coupled LiDAR-IMU-Leg Odometry with Online Learned Leg Kinematics Incorporating Foot Tactile Information	Jun 11, 2025		CodeCode Available	2
ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering	Jun 10, 2025	Scheduling	CodeCode Available	2
Do MIL Models Transfer?	Jun 10, 2025	Multiple Instance LearningTransfer Learning	CodeCode Available	2
Segment This Thing: Foveated Tokenization for Efficient Point-Prompted Segmentation	Jun 10, 2025	FoveationImage Segmentation	CodeCode Available	2
FedRAG: A Framework for Fine-Tuning Retrieval-Augmented Generation Systems	Jun 10, 2025	RAGRetrieval	CodeCode Available	2
Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better	Jun 10, 2025	Image Generation	CodeCode Available	2
StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams	Jun 10, 2025	3DGS3D Reconstruction	CodeCode Available	2
Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning	Jun 10, 2025	Model SelectionReinforcement Learning (RL)	CodeCode Available	2
Institutional Books 1.0: A 242B token dataset from Harvard Library's collections, refined for accuracy and usability	Jun 10, 2025	Optical Character Recognition (OCR)	CodeCode Available	2
FlagEvalMM: A Flexible Framework for Comprehensive Multimodal Model Evaluation	Jun 10, 2025	Image-text RetrievalQuestion Answering	CodeCode Available	2
SeerAttention-R: Sparse Attention Adaptation for Long Reasoning	Jun 10, 2025	4kGPU	CodeCode Available	2
AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions	Jun 10, 2025	Math	CodeCode Available	2
Solving the Job Shop Scheduling Problem with Graph Neural Networks: A Customizable Reinforcement Learning Environment	Jun 10, 2025	Combinatorial OptimizationImitation Learning	CodeCode Available	2
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation	Jun 9, 2025	Image Generation	CodeCode Available	2
Speedy Deformable 3D Gaussian Splatting: Fast Rendering and Compression of Dynamic Scenes	Jun 9, 2025	3DGSNeRF	CodeCode Available	2
Play to Generalize: Learning to Reason Through Game Play	Jun 9, 2025	Domain GeneralizationMath	CodeCode Available	2
Snap-and-tune: combining deep learning and test-time optimization for high-fidelity cardiovascular volumetric meshing	Jun 9, 2025		CodeCode Available	2
BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation	Jun 9, 2025	QuantizationVision-Language-Action	CodeCode Available	2
FunDiff: Diffusion Models over Function Spaces for Physics-Informed Generative Modeling	Jun 9, 2025	Density Estimation	CodeCode Available	2