The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 14801–14850 of 474278 papers

Title	Date	Tasks	Status	Hype
OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents	Jun 19, 2025	Benchmarking	—Unverified	0
DRIVE Through the Unpredictability:From a Protocol Investigating Slip to a Metric Estimating Command Uncertainty	Jun 19, 2025	Autonomous NavigationSand	—Unverified	0
Human2LocoMan: Learning Versatile Quadrupedal Manipulation with Human Pretraining	Jun 19, 2025	Imitation Learning	—Unverified	0
Quantum Artificial Intelligence for Secure Autonomous Vehicle Navigation: An Architectural Proposal	Jun 19, 2025	Autonomous VehiclesSensor Fusion	—Unverified	0
EndoMUST: Monocular Depth Estimation for Robotic Endoscopy via End-to-end Multi-step Self-supervised Training	Jun 19, 2025	Depth EstimationIntrinsic Image Decomposition	CodeCode Available	1
Probe before You Talk: Towards Black-box Defense against Backdoor Unalignment for Large Language Models	Jun 19, 2025	Large Language ModelSafety Alignment	CodeCode Available	1
StoryWriter: A Multi-Agent Framework for Long Story Generation	Jun 19, 2025	Story Generation	CodeCode Available	1
Subspace-Boosted Model Merging	Jun 19, 2025	modelTask Arithmetic	—Unverified	0
From Coarse to Continuous: Progressive Refinement Implicit Neural Representation for Motion-Robust Anisotropic MRI Reconstruction	Jun 19, 2025	MRI Reconstruction	—Unverified	0
From General to Targeted Rewards: Surpassing GPT-4 in Open-Ended Long-Context Generation	Jun 19, 2025	Dataset GenerationReinforcement Learning (RL)	—Unverified	0
LazyEviction: Lagged KV Eviction with Attention Pattern Observation for Efficient Long Reasoning	Jun 19, 2025	GPU	—Unverified	0
SemAgent: A Semantics Aware Program Repair Agent	Jun 19, 2025	Program Repair	—Unverified	0
Large Language Models are Near-Optimal Decision-Makers with a Non-Human Learning Behavior	Jun 19, 2025	Decision Making	CodeCode Available	1
Watermarking Autoregressive Image Generation	Jun 19, 2025	Image GenerationLanguage Modeling	CodeCode Available	2
Wavelet-based Global Orientation and Surface Reconstruction for Point Clouds	Jun 19, 2025	CPUSurface Reconstruction	—Unverified	0
OJBench: A Competition Level Code Benchmark For Large Language Models	Jun 19, 2025	Math	CodeCode Available	1
Hunyuan3D 2.5: Towards High-Fidelity 3D Assets Generation with Ultimate Details	Jun 19, 2025	Texture Synthesis	CodeCode Available	3
VRAIL: Vectorized Reward-based Attribution for Interpretable Learning	Jun 19, 2025	Reinforcement Learning (RL)	—Unverified	0
REIS: A High-Performance and Energy-Efficient Retrieval System with In-Storage Processing	Jun 19, 2025	RAGRetrieval	—Unverified	0
A Distributional-Lifting Theorem for PAC Learning	Jun 19, 2025	PAC learning	—Unverified	0
Capturing Visualization Design Rationale	Jun 19, 2025	Data Visualization	CodeCode Available	0
AuraGenome: An LLM-Powered Framework for On-the-Fly Reusable and Scalable Circular Genome Visualizations	Jun 18, 2025		CodeCode Available	0
Model Fusion via Neuron Interpolation	Jun 18, 2025		CodeCode Available	0
Retrospective Memory for Camouflaged Object Detection	Jun 18, 2025	Objectobject-detection	—Unverified	0
CAWR: Corruption-Averse Advantage-Weighted Regression for Robust Policy Optimization	Jun 18, 2025	D4RLOffline RL	CodeCode Available	0
Baltimore Atlas: FreqWeaver Adapter for Semi-supervised Ultra-high Spatial Resolution Land Cover Classification	Jun 18, 2025	Land Cover ClassificationSegmentation	—Unverified	0
RA-NeRF: Robust Neural Radiance Field Reconstruction with Accurate Camera Pose Estimation under Complex Trajectories	Jun 18, 2025	3DGS3D Reconstruction	—Unverified	0
Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training	Jun 18, 2025	MedQAMMLU	—Unverified	0
ExtPose: Robust and Coherent Pose Estimation by Extending ViTs	Jun 18, 2025	3D Hand Pose Estimation3D Human Pose Estimation	—Unverified	0
From RAG to Agentic: Validating Islamic-Medicine Responses with LLM Agents	Jun 18, 2025	Language ModelingLanguage Modelling	—Unverified	0
Sekai: A Video Dataset towards World Exploration	Jun 18, 2025	Video Generation	—Unverified	0
WikiMixQA: A Multimodal Benchmark for Question Answering over Tables and Charts	Jun 18, 2025	document understandingMultiple-choice	—Unverified	0
Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model	Jun 18, 2025	Image Generation	CodeCode Available	1
SignBart -- New approach with the skeleton sequence for Isolated Sign language Recognition	Jun 18, 2025	DecoderSign Language Recognition	CodeCode Available	0
AgentGroupChat-V2: Divide-and-Conquer Is What LLM-Based Multi-Agent System Need	Jun 18, 2025	GSM8KHumanEval	CodeCode Available	0
SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification	Jun 18, 2025	Claim VerificationRAG	—Unverified	0
Conquering the Retina: Bringing Visual in-Context Learning to OCT	Jun 18, 2025	In-Context LearningMedical Image Analysis	CodeCode Available	0
Modulated Diffusion: Accelerating Generative Modeling with Modulated Quantization	Jun 18, 2025	Quantization	CodeCode Available	0
DiscoSG: Towards Discourse-Level Text Scene Graph Parsing through Iterative Graph Refinement	Jun 18, 2025	Graph GenerationHallucination	CodeCode Available	2
Fiber Signal Denoising Algorithm using Hybrid Deep Learning Networks	Jun 18, 2025	Deep LearningDenoising	—Unverified	0
Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute	Jun 18, 2025	continuous-controlContinuous Control	—Unverified	0
Effect of Signal Quantization on Performance Measures of a 1st Order One Dimensional Differential Microphone Array	Jun 18, 2025	Quantization	—Unverified	0
Reinforcement Learning-Based Policy Optimisation For Heterogeneous Radio Access	Jun 18, 2025	Q-Learningreinforcement-learning	—Unverified	0
Joint Computation Offloading and Resource Allocation for Uncertain Maritime MEC via Cooperation of UAVs and Vessels	Jun 18, 2025	Edge-computing	—Unverified	0
Multi-Timescale Gradient Sliding for Distributed Optimization	Jun 18, 2025	Distributed Optimization	—Unverified	0
Active Learning-Guided Seq2Seq Variational Autoencoder for Multi-target Inhibitor Generation	Jun 18, 2025	Active LearningDiversity	—Unverified	0
Learning Task-Agnostic Skill Bases to Uncover Motor Primitives in Animal Behaviors	Jun 18, 2025	Imitation LearningRepresentation Learning	—Unverified	0
Conditional Generative Modeling for Enhanced Credit Risk Management in Supply Chain Finance	Jun 18, 2025	Managementquantile regression	—Unverified	0
CopulaSMOTE: A Copula-Based Oversampling Approach for Imbalanced Classification in Diabetes Prediction	Jun 18, 2025	Data AugmentationDiabetes Prediction	—Unverified	0
Urban RIS-Assisted HAP Networks: Performance Analysis Using Stochastic Geometry	Jun 18, 2025	Point Processes	—Unverified	0