The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 19851–19900 of 474278 papers

Title	Date	Tasks	Status	Hype
DIP-R1: Deep Inspection and Perception with RL Looking Through and Understanding Complex Scenes	May 29, 2025	Decision MakingReinforcement Learning (RL)	—Unverified	0
Keyed Chaotic Dynamics for Privacy-Preserving Neural Inference	May 29, 2025	Graph SamplingNeural Network Security	—Unverified	0
Securing AI Agents with Information-Flow Control	May 29, 2025		CodeCode Available	2
UniTEX: Universal High Fidelity Generative Texturing for 3D Shapes	May 29, 2025	Texture Synthesis	CodeCode Available	2
FlowAlign: Trajectory-Regularized, Inversion-Free Flow-based Image Editing	May 29, 2025		CodeCode Available	1
The Panaceas for Improving Low-Rank Decomposition in Communication-Efficient Federated Learning	May 29, 2025	Federated Learning	CodeCode Available	1
Accelerating AllReduce with a Persistent Straggler	May 29, 2025	GPU	CodeCode Available	1
HyperPointFormer: Multimodal Fusion in 3D Space with Dual-Branch Cross-Attention Transformers	May 29, 2025	Land Cover Classification	CodeCode Available	0
Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation	May 29, 2025		CodeCode Available	1
LADA: Scalable Label-Specific CLIP Adapter for Continual Learning	May 29, 2025	Continual Learning	CodeCode Available	1
GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents	May 29, 2025		CodeCode Available	2
TextRegion: Text-Aligned Region Tokens from Frozen Image-Text Models	May 29, 2025	Referring ExpressionReferring Expression Comprehension	CodeCode Available	2
One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory	May 29, 2025	Contrastive LearningText Retrieval	CodeCode Available	2
SeG-SR: Integrating Semantic Knowledge into Remote Sensing Image Super-Resolution via Vision-Language Model	May 29, 2025	Image Super-ResolutionLanguage Modeling	CodeCode Available	0
MemOS: An Operating System for Memory-Augmented Generation (MAG) in Large Language Models	May 28, 2025	RAGRetrieval-augmented Generation	—Unverified	0
Thinking with Generated Images	May 28, 2025	Visual Reasoning	CodeCode Available	0
D-Fusion: Direct Preference Optimization for Aligning Diffusion Models with Visually Consistent Samples	May 28, 2025	Denoising	—Unverified	0
What Makes for Text to 360-degree Panorama Generation with Stable Diffusion?	May 28, 2025		—Unverified	0
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding	May 28, 2025	Text Generation	—Unverified	0
DocReRank: Single-Page Hard Negative Query Generation for Training Multi-Modal RAG Rerankers	May 28, 2025	RAGRetrieval	—Unverified	0
Do You See Me : A Multidimensional Benchmark for Evaluating Visual Perception in Multimodal LLMs	May 28, 2025		CodeCode Available	1
GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning	May 28, 2025		—Unverified	0
Continuous Evolution Pool: Taming Recurring Concept Drift in Online Time Series Forecasting	May 28, 2025	Time SeriesTime Series Forecasting	—Unverified	0
PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms	May 28, 2025	DenoisingVideo Generation	—Unverified	0
DeepRTL2: A Versatile Model for RTL-Related Tasks	May 28, 2025	Code GenerationCode Search	—Unverified	0
3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model	May 28, 2025	Language ModelingLanguage Modelling	—Unverified	0
GUST: Quantifying Free-Form Geometric Uncertainty of Metamaterials Using Small Data	May 28, 2025	FormTransfer Learning	—Unverified	0
Improving statistical learning methods via features selection without replacement sampling and random projection	May 28, 2025	feature selection	—Unverified	0
Contextual Memory Intelligence -- A Foundational Paradigm for Human-AI Collaboration and Reflective Generative AI Systems	May 28, 2025	Drift DetectionRAG	—Unverified	0
Limits of Disclosure in Search Markets	May 28, 2025	Informativeness	—Unverified	0
On the Interplay of Privacy, Persuasion and Quantization	May 28, 2025	Decision MakingDecoder	—Unverified	0
EvolveSearch: An Iterative Self-Evolving Search Agent	May 28, 2025	Multi-hop Question AnsweringQuestion Answering	—Unverified	0
LaMDAgent: An Autonomous Framework for Post-Training Pipeline Optimization via LLM Agents	May 28, 2025	Instruction Following	—Unverified	0
Position: Uncertainty Quantification Needs Reassessment for Large-language Model Agents	May 28, 2025	ChatbotLanguage Modeling	—Unverified	0
CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models	May 28, 2025	GSM8K	—Unverified	0
NOCL: Node-Oriented Conceptualization LLM for Graph Tasks without Message Passing	May 28, 2025	Recommendation Systems	—Unverified	0
The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models	May 28, 2025		—Unverified	0
StateSpaceDiffuser: Bringing Long Context to Diffusion World Models	May 28, 2025	Mamba	—Unverified	0
Judging LLMs on a Simplex	May 28, 2025	Bayesian InferenceUncertainty Quantification	—Unverified	0
Universal Visuo-Tactile Video Understanding for Embodied Interaction	May 28, 2025	FrictionLarge Language Model	—Unverified	0
THINK-Bench: Evaluating Thinking Efficiency and Chain-of-Thought Quality of Large Reasoning Models	May 28, 2025	Computational Efficiency	—Unverified	0
Learning World Models for Interactive Video Generation	May 28, 2025	In-Context LearningRetrieval	—Unverified	0
Individualised Counterfactual Examples Using Conformal Prediction Intervals	May 28, 2025	Binary ClassificationConformal Prediction	—Unverified	0
RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning	May 28, 2025	RAGRetrieval-augmented Generation	—Unverified	0
Neuromorphic Sequential Arena: A Benchmark for Neuromorphic Temporal Processing	May 28, 2025		CodeCode Available	1
EnsemW2S: Enhancing Weak-to-Strong Generalization with Large Language Model Ensembles	May 28, 2025	Language ModelingLanguage Modelling	—Unverified	0
Curse of High Dimensionality Issue in Transformer for Long-context Modeling	May 28, 2025		CodeCode Available	0
Improving Out-of-Distribution Detection with Markov Logic Networks	May 28, 2025	Computational EfficiencyOut-of-Distribution Detection	—Unverified	0
From Motion to Behavior: Hierarchical Modeling of Humanoid Generative Behavior Control	May 28, 2025	Motion GenerationMotion Planning	—Unverified	0
Are classical deep neural networks weakly adversarially robust?	May 28, 2025	Adversarial DefenseAdversarial Robustness	—Unverified	0