The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 20701–20750 of 474278 papers

Title	Date	Tasks	Status	Hype
Graph Wave Networks	May 26, 2025		CodeCode Available	0
Divide and Conquer: Grounding LLMs as Efficient Decision-Making Agents via Offline Hierarchical Reinforcement Learning	May 26, 2025	Decision MakingHierarchical Reinforcement Learning	CodeCode Available	2
MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents	May 26, 2025	BenchmarkingMinecraft	CodeCode Available	1
Learning for Dynamic Combinatorial Optimization without Training Data	May 26, 2025	Combinatorial OptimizationTraveling Salesman Problem	—Unverified	0
Balancing Interference and Correlation in Spatial Experimental Designs: A Causal Graph Cut Approach	May 26, 2025		CodeCode Available	0
LPCM: Learning-based Predictive Coding for LiDAR Point Cloud Compression	May 26, 2025	Quantization	—Unverified	0
AgentRecBench: Benchmarking LLM Agent-based Personalized Recommender Systems	May 26, 2025	BenchmarkingRecommendation Systems	—Unverified	0
MoESD: Unveil Speculative Decoding's Potential for Accelerating Sparse MoE	May 26, 2025	Mixture-of-Experts	—Unverified	0
DeepInverse: A Python package for solving imaging inverse problems with deep learning	May 26, 2025	Image Reconstruction	CodeCode Available	4
Alita: Generalist Agent Enabling Scalable Agentic Reasoning with Minimal Predefinition and Maximal Self-Evolution	May 26, 2025		CodeCode Available	4
TabPFN: One Model to Rule Them All?	May 26, 2025	AllBayesian Inference	CodeCode Available	0
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging	May 26, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
LAPA-based Dynamic Privacy Optimization for Wireless Federated Learning in Heterogeneous Environments	May 26, 2025	Federated Learning	—Unverified	0
Learning to Select In-Context Demonstration Preferred by Large Language Model	May 26, 2025	In-Context LearningLanguage Modeling	—Unverified	0
Regret Analysis of Average-Reward Unichain MDPs via an Actor-Critic Approach	May 26, 2025	TARvalid	—Unverified	0
Agentic AI Process Observability: Discovering Behavioral Variability	May 26, 2025	Causal Discovery	—Unverified	0
MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness	May 26, 2025		CodeCode Available	1
EgoZero: Robot Learning from Smart Glasses	May 26, 2025		—Unverified	0
Minimax Adaptive Online Nonparametric Regression over Besov Spaces	May 26, 2025	regression	—Unverified	0
Information-theoretic Generalization Analysis for VQ-VAEs: A Role of Latent Variables	May 26, 2025	Data CompressionDecoder	—Unverified	0
Ten Principles of AI Agent Economics	May 26, 2025	AI AgentEthics	—Unverified	0
Inverse Q-Learning Done Right: Offline Imitation Learning in Q^π-Realizable MDPs	May 26, 2025	Imitation LearningQ-Learning	CodeCode Available	0
The Study of Human Preference Based on Integrated Analysis of N1 and LPP Components	May 26, 2025	Brain Computer InterfaceEEG	—Unverified	0
Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition	May 26, 2025	MathReinforcement Learning (RL)	—Unverified	0
Unveiling the Compositional Ability Gap in Vision-Language Reasoning Model	May 26, 2025	DiagnosticReinforcement Learning (RL)	CodeCode Available	0
Style2Code: A Style-Controllable Code Generation Framework with Dual-Modal Contrastive Representation Learning	May 26, 2025	Code GenerationContrastive Learning	CodeCode Available	0
Parameter-Efficient Fine-Tuning with Column Space Projection	May 26, 2025	parameter-efficient fine-tuning	—Unverified	0
Cellwise and Casewise Robust Covariance in High Dimensions	May 26, 2025	Anomaly Detection	—Unverified	0
Future Link Prediction Without Memory or Aggregation	May 26, 2025	Link PredictionPrediction	CodeCode Available	0
Lego Sketch: A Scalable Memory-augmented Neural Network for Sketching Data Streams	May 26, 2025		CodeCode Available	0
Beyond Safe Answers: A Benchmark for Evaluating True Risk Awareness in Large Reasoning Models	May 26, 2025	Safety Alignment	CodeCode Available	0
Lorentz Local Canonicalization: How to Make Any Network Lorentz-Equivariant	May 26, 2025	Data Augmentation	—Unverified	0
Measure Domain's Gap: A Similar Domain Selection Principle for Multi-Domain Recommendation	May 26, 2025		CodeCode Available	0
Genome-Bench: A Scientific Reasoning Benchmark from Real-World Expert Discussions	May 26, 2025	Multiple-choice	—Unverified	0
Machine Learning Algorithm for Noise Reduction and Disease-Causing Gene Feature Extraction in Gene Sequencing Data	May 26, 2025	Feature Engineering	—Unverified	0
Density Ratio-Free Doubly Robust Proxy Causal Learning	May 26, 2025	Density Ratio Estimation	—Unverified	0
Inceptive Transformers: Enhancing Contextual Representations through Multi-Scale Feature Learning Across Domains and Languages	May 26, 2025	Emotion Recognition	—Unverified	0
AMQA: An Adversarial Dataset for Benchmarking Bias of LLMs in Medicine and Healthcare	May 26, 2025	BenchmarkingMedical Diagnosis	CodeCode Available	0
syftr: Pareto-Optimal Generative AI	May 26, 2025	Bayesian OptimizationRAG	CodeCode Available	3
Benchmarking Multimodal Knowledge Conflict for Large Multimodal Models	May 26, 2025	BenchmarkingRAG	CodeCode Available	1
Correlating instruction-tuning (in multimodal models) with vision-language processing (in the brain)	May 26, 2025	Image Captioning	CodeCode Available	0
Beyond Freezing: Sparse Tuning Enhances Plasticity in Continual Learning with Pre-Trained Models	May 26, 2025	Continual Learning	CodeCode Available	0
HIT Model: A Hierarchical Interaction-Enhanced Two-Tower Model for Pre-Ranking Systems	May 26, 2025	model	—Unverified	0
Unlocking the Power of Diffusion Models in Sequential Recommendation: A Simple and Effective Approach	May 26, 2025	DenoisingRecommendation Systems	CodeCode Available	1
PCDCNet: A Surrogate Model for Air Quality Forecasting with Physical-Chemical Dynamics and Constraints	May 26, 2025	Deep Learning	CodeCode Available	3
A Semantic Change Detection Network Based on Boundary Detection and Task Interaction for High-Resolution Remote Sensing Images	May 26, 2025	Boundary DetectionChange Detection	CodeCode Available	1
KnowTrace: Bootstrapping Iterative Retrieval-Augmented Generation with Structured Knowledge Tracing	May 26, 2025	Knowledge TracingMulti-hop Question Answering	CodeCode Available	1
LangDAug: Langevin Data Augmentation for Multi-Source Domain Generalization in Medical Image Segmentation	May 26, 2025	Data AugmentationDomain Generalization	CodeCode Available	1
Large Language Models Meet Knowledge Graphs for Question Answering: Synthesis and Opportunities	May 26, 2025	Knowledge GraphsNatural Language Understanding	CodeCode Available	2
HAODiff: Human-Aware One-Step Diffusion via Dual-Prompt Guidance	May 26, 2025		CodeCode Available	1