The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

661,570 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5351–5400 of 661570 papers

Title	Date	Tasks	Status	Hype
CPRet: A Dataset, Benchmark, and Model for Retrieval in Competitive Programming	May 19, 2025	FairnessLarge Language Model	CodeCode Available	2
AD-AGENT: A Multi-agent Framework for End-to-end Anomaly Detection	May 19, 2025	Anomaly DetectionCode Generation	CodeCode Available	2
Temporal Query Network for Efficient Multivariate Time Series Forecasting	May 19, 2025	Correlated Time Series ForecastingMultivariate Time Series Forecasting	CodeCode Available	2
Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space	May 19, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space	May 19, 2025	GSM8KMath	CodeCode Available	2
Rethinking Features-Fused-Pyramid-Neck for Object Detection	May 19, 2025	object-detectionObject Detection	CodeCode Available	2
G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning	May 19, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix	May 19, 2025		CodeCode Available	2
CSC-SQL: Corrective Self-Consistency in Text-to-SQL via Reinforcement Learning	May 19, 2025	Text to SQLText-To-SQL	CodeCode Available	2
Recollection from Pensieve: Novel View Synthesis via Learning from Uncalibrated Videos	May 19, 2025	3D geometryCamera Pose Estimation	CodeCode Available	2
Neurosymbolic Diffusion Models	May 19, 2025	Autonomous DrivingUncertainty Quantification	CodeCode Available	2
DD-Ranking: Rethinking the Evaluation of Dataset Distillation	May 19, 2025	Data AugmentationData Compression	CodeCode Available	2
FlightGPT: Towards Generalizable and Interpretable UAV Vision-and-Language Navigation with Vision-Language Models	May 19, 2025	Disaster ResponseVision and Language Navigation	CodeCode Available	2
μPC: Scaling Predictive Coding to 100+ Layer Networks	May 19, 2025		CodeCode Available	2
Hybrid 3D-4D Gaussian Splatting for Fast Dynamic Scene Representation	May 19, 2025	3D Scene ReconstructionComputational Efficiency	CodeCode Available	2
AdaptThink: Reasoning Models Can Learn When to Think	May 19, 2025	Math	CodeCode Available	2
RBF++: Quantifying and Optimizing Reasoning Boundaries across Measurable and Unmeasurable Capabilities for Chain-of-Thought Reasoning	May 19, 2025		CodeCode Available	2
Learnware of Language Models: Specialized Small Language Models Can Do Big	May 19, 2025	Privacy PreservingQuestion Answering	CodeCode Available	2
Degradation-Aware Feature Perturbation for All-in-One Image Restoration	May 19, 2025	AllDeblurring	CodeCode Available	2
Dynamic Graph Induced Contour-aware Heat Conduction Network for Event-based Object Detection	May 19, 2025	Event-based visionObject	CodeCode Available	2
Panda: A pretrained forecast model for universal representation of chaotic dynamics	May 19, 2025	Time Series	CodeCode Available	2
DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization	May 18, 2025	Mathematical Reasoning	CodeCode Available	2
Synthetic Data RL: Task Definition Is All You Need	May 18, 2025	AllGSM8K	CodeCode Available	2
GlobalGeoTree: A Multi-Granular Vision-Language Dataset for Global Tree Species Classification	May 18, 2025	Benchmarking	CodeCode Available	2
SLOT: Sample-specific Language Model Optimization at Test-time	May 18, 2025	GSM8KLanguage Modeling	CodeCode Available	2
VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning	May 18, 2025	Reinforcement Learning (RL)	CodeCode Available	2
HISTAI: An Open-Source, Large-Scale Whole Slide Image Dataset for Computational Pathology	May 17, 2025	DiagnosticDiversity	CodeCode Available	2
Demystifying and Enhancing the Efficiency of Large Language Model Based Search Agents	May 17, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
DraftAttention: Fast Video Diffusion via Low-Resolution Attention Guidance	May 17, 2025	Video Generation	CodeCode Available	2
Safe Delta: Consistently Preserving Safety when Fine-Tuning LLMs on Diverse Datasets	May 17, 2025		CodeCode Available	2
LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners	May 17, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
AI-Driven Automation Can Become the Foundation of Next-Era Science of Science Research	May 17, 2025	scientific discovery	CodeCode Available	2
Mergenetic: a Simple Evolutionary Model Merging Library	May 16, 2025	Evolutionary Algorithmsmodel	CodeCode Available	2
DexGarmentLab: Dexterous Garment Manipulation Environment with Generalizable Policy	May 16, 2025	Reinforcement Learning (RL)	CodeCode Available	2
Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation	May 16, 2025	3D geometryNavigate	CodeCode Available	2
DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling	May 16, 2025	Attribute	CodeCode Available	2
Think Twice Before You Act: Enhancing Agent Behavioral Safety with Thought Correction	May 16, 2025	Contrastive LearningSafety Alignment	CodeCode Available	2
SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning	May 16, 2025	Contrastive Learning	CodeCode Available	2
Relational Graph Transformer	May 16, 2025	Graph Neural Network	CodeCode Available	2
Patho-R1: A Multimodal Reinforcement Learning-Based Pathology Expert Reasoner	May 16, 2025	Cross-Modal RetrievalDiagnostic	CodeCode Available	2
ForensicHub: A Unified Benchmark & Codebase for All-Domain Fake Image Detection and Localization	May 16, 2025	AllDeepFake Detection	CodeCode Available	2
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning	May 16, 2025	Data Augmentation	CodeCode Available	2
Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs	May 16, 2025	Retrieval	CodeCode Available	2
PnPXAI: A Universal XAI Framework Providing Automatic Explanations Across Diverse Modalities and Models	May 15, 2025	Explainable artificial intelligenceExplainable Artificial Intelligence (XAI)	CodeCode Available	2
Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models	May 15, 2025	Mathreinforcement-learning	CodeCode Available	2
MASS: Multi-Agent Simulation Scaling for Portfolio Construction	May 15, 2025		CodeCode Available	2
AdaptCLIP: Adapting CLIP for Universal Visual Anomaly Detection	May 15, 2025	Anomaly Detection	CodeCode Available	2
A Tutorial on Structural Identifiability of Epidemic Models Using StructuralIdentifiability.jl	May 15, 2025	parameter estimation	CodeCode Available	2
Superposition Yields Robust Neural Scaling	May 15, 2025		CodeCode Available	2
MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly	May 15, 2025	8kBenchmarking	CodeCode Available	2