The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 17001–17050 of 474278 papers

Title	Date	Tasks	Status	Hype
Graph-Assisted Stitching for Offline Hierarchical Reinforcement Learning	Jun 9, 2025		CodeCode Available	1
Video Unlearning via Low-Rank Refusal Vector	Jun 9, 2025	Instruction Following	—Unverified	0
RSafe: Incentivizing proactive reasoning to build robust and adaptive LLM safeguards	Jun 9, 2025	Safety Alignment	CodeCode Available	1
A Practical Guide to Tuning Spiking Neuronal Dynamics	Jun 9, 2025		CodeCode Available	0
Looking Beyond Visible Cues: Implicit Video Question Answering via Dual-Clue Reasoning	Jun 9, 2025	Future predictionQuestion Answering	CodeCode Available	0
Vision Transformers Don't Need Trained Registers	Jun 9, 2025		CodeCode Available	2
Generative Modeling of Weights: Generalization or Memorization?	Jun 9, 2025	MemorizationVideo Generation	CodeCode Available	1
Diffusion models under low-noise regime	Jun 9, 2025	DenoisingMemorization	CodeCode Available	0
How Benchmark Prediction from Fewer Data Misses the Mark	Jun 9, 2025	Large Language ModelPrediction	CodeCode Available	0
TimberStrike: Dataset Reconstruction Attack Revealing Privacy Leakage in Federated Tree-Based Systems	Jun 9, 2025	Federated LearningPrivacy Preserving	CodeCode Available	0
Improving Fairness of Large Language Models in Multi-document Summarization	Jun 9, 2025	AttributeDecision Making	CodeCode Available	0
Solving Inequality Proofs with Large Language Models	Jun 9, 2025	Mathematical Problem-SolvingRelation Prediction	CodeCode Available	1
Diffusion Counterfactual Generation with Semantic Abduction	Jun 9, 2025	counterfactualCounterfactual Reasoning	CodeCode Available	0
Curriculum Learning With Counterfactual Group Relative Policy Advantage For Multi-Agent Reinforcement Learning	Jun 9, 2025	counterfactualMulti-agent Reinforcement Learning	CodeCode Available	1
Domain Randomization for Object Detection in Manufacturing Applications using Synthetic Data: A Comprehensive Study	Jun 9, 2025	Objectobject-detection	CodeCode Available	0
Spatio-Temporal State Space Model For Efficient Event-Based Optical Flow	Jun 9, 2025	Computational EfficiencyEvent-based Optical Flow	CodeCode Available	1
Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers	Jun 9, 2025	Attribute	CodeCode Available	1
HeuriGym: An Agentic Benchmark for LLM-Crafted Heuristics in Combinatorial Optimization	Jun 9, 2025	Combinatorial OptimizationMemorization	CodeCode Available	2
Reinforcement Pre-Training	Jun 9, 2025	Language ModelingLanguage Modelling	—Unverified	0
ZeroVO: Visual Odometry with Minimal Assumptions	Jun 9, 2025	Autonomous DrivingCamera Calibration	—Unverified	0
Quickest Causal Change Point Detection by Adaptive Intervention	Jun 9, 2025	Change Point Detection	—Unverified	0
Improving large language models with concept-aware fine-tuning	Jun 9, 2025	Protein DesignText Summarization	CodeCode Available	1
CyberV: Cybernetics for Test-time Scaling in Video Understanding	Jun 9, 2025	Video Understanding	CodeCode Available	1
Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models	Jun 9, 2025	Multi-agent Reinforcement LearningSafety Alignment	CodeCode Available	1
SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design	Jun 9, 2025	Code GenerationRAG	CodeCode Available	1
Gradients: When Markets Meet Fine-tuning -- A Distributed Approach to Model Optimisation	Jun 9, 2025	AutoML	—Unverified	0
SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding	Jun 9, 2025	3D Object DetectionAutonomous Driving	—Unverified	0
Reparameterized LLM Training via Orthogonal Equivalence Transformation	Jun 9, 2025		—Unverified	0
Realistic Urban Traffic Generator using Decentralized Federated Learning for the SUMO simulator	Jun 9, 2025	Deep Reinforcement LearningFederated Learning	CodeCode Available	0
MiniCPM4: Ultra-Efficient LLMs on End Devices	Jun 9, 2025	Large Language Model	CodeCode Available	9
Trend-Aware Fashion Recommendation with Visual Segmentation and Semantic Similarity	Jun 9, 2025	Semantic SegmentationSemantic Similarity	CodeCode Available	0
Generalization Analysis for Bayesian Optimal Experiment Design under Model Misspecification	Jun 9, 2025	Drug DiscoveryExperimental Design	—Unverified	0
LlamaRec-LKG-RAG: A Single-Pass, Learnable Knowledge Graph-RAG Framework for LLM-Based Ranking	Jun 9, 2025	RAGRecommendation Systems	CodeCode Available	0
An Intelligent Fault Self-Healing Mechanism for Cloud AI Systems via Integration of Large Language Models and Deep Reinforcement Learning	Jun 9, 2025	Deep Reinforcement LearningLarge Language Model	—Unverified	0
Serendipitous Recommendation with Multimodal LLM	Jun 9, 2025	Recommendation SystemsWorld Knowledge	—Unverified	0
SAM2Auto: Auto Annotation Using FLASH	Jun 9, 2025	Instance SegmentationObject	—Unverified	0
Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations	Jun 9, 2025	Large Language ModelMultimodal Reasoning	—Unverified	0
PIG: Physically-based Multi-Material Interaction with 3D Gaussians	Jun 9, 2025	Scene GenerationSegmentation	—Unverified	0
FMaMIL: Frequency-Driven Mamba Multi-Instance Learning for Weakly Supervised Lesion Segmentation in Medical Images	Jun 9, 2025	DiagnosticLesion Segmentation	—Unverified	0
Aligning Text, Images, and 3D Structure Token-by-Token	Jun 9, 2025	3D Object RecognitionInstruction Following	—Unverified	0
A Temporal FRBR/FRBRoo-Based Model for Component-Level Versioning of Legal Norms	Jun 9, 2025	ArticlesKnowledge Graphs	—Unverified	0
GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior	Jun 9, 2025		—Unverified	0
W4S4: WaLRUS Meets S4 for Long-Range Sequence Modeling	Jun 9, 2025	State Space Models	—Unverified	0
Statistical Hypothesis Testing for Auditing Robustness in Language Models	Jun 9, 2025	FairnessLarge Language Model	—Unverified	0
NeurIPS 2025 E2LM Competition : Early Training Evaluation of Language Models	Jun 9, 2025	GPU	—Unverified	0
Uncovering the Functional Roles of Nonlinearity in Memory	Jun 9, 2025	speech-recognitionSpeech Recognition	—Unverified	0
Accelerating Diffusion Models in Offline RL via Reward-Aware Consistency Trajectory Distillation	Jun 9, 2025	Decision MakingMuJoCo	—Unverified	0
Deep Equivariant Multi-Agent Control Barrier Functions	Jun 9, 2025	Robot NavigationZero-shot Generalization	—Unverified	0
Flow-Anything: Learning Real-World Optical Flow Estimation from Large-Scale Single-view Images	Jun 9, 2025	Depth EstimationMonocular Depth Estimation	—Unverified	0
MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs	Jun 9, 2025	HallucinationModel Editing	—Unverified	0