The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 16801–16850 of 474278 papers

Title	Date	Tasks	Status	Hype
Hyperbolic Dual Feature Augmentation for Open-Environment	Jun 10, 2025	class-incremental learningClass Incremental Learning	—Unverified	0
ORIDa: Object-centric Real-world Image Composition Dataset	Jun 10, 2025	counterfactualObject	—Unverified	0
Biologically Inspired Deep Learning Approaches for Fetal Ultrasound Image Classification	Jun 10, 2025	AnatomyDeep Learning	—Unverified	0
Optimization over Sparse Support-Preserving Sets: Two-Step Projection with Global Optimality Guarantees	Jun 10, 2025	LEMMA	CodeCode Available	0
Effective Data Pruning through Score Extrapolation	Jun 10, 2025		CodeCode Available	0
SECOND: Mitigating Perceptual Hallucination in Vision-Language Models via Selective and Contrastive Decoding	Jun 10, 2025	HallucinationObject Hallucination	CodeCode Available	0
A Sample Efficient Conditional Independence Test in the Presence of Discretization	Jun 10, 2025	Binarization	CodeCode Available	0
Inherently Faithful Attention Maps for Vision Transformers	Jun 10, 2025	ClassificationRobust classification	CodeCode Available	0
SSS: Semi-Supervised SAM-2 with Efficient Prompting for Medical Imaging Segmentation	Jun 10, 2025	Data AugmentationImage Segmentation	CodeCode Available	0
AstroCompress: A benchmark dataset for multi-purpose compression of astronomical data	Jun 10, 2025	Data Compression	CodeCode Available	0
Mitigating Reward Over-optimization in Direct Alignment Algorithms with Importance Sampling	Jun 10, 2025		CodeCode Available	0
CoMuMDR: Code-mixed Multi-modal Multi-domain corpus for Discourse paRsing in conversations	Jun 10, 2025	Discourse ParsingEmotion Recognition	CodeCode Available	0
Efficient Medical Vision-Language Alignment Through Adapting Masked Vision Models	Jun 10, 2025	Contrastive LearningImage-text matching	CodeCode Available	1
Differentially Private Relational Learning with Entity-level Privacy Guarantees	Jun 10, 2025	Relational ReasoningSensitivity	CodeCode Available	0
Sample Efficient Demonstration Selection for In-Context Learning	Jun 10, 2025	In-Context Learning	CodeCode Available	0
Enhancing generalizability of model discovery across parameter space with multi-experiment equation learning (ME-EQL)	Jun 10, 2025	Model Discovery	CodeCode Available	0
OpenRR-1k: A Scalable Dataset for Real-World Reflection Removal	Jun 10, 2025	Reflection Removal	CodeCode Available	0
Normalized Radon Cumulative Distribution Transforms for Invariance and Robustness in Optimal Transport Based Image Classification	Jun 10, 2025	image-classificationImage Classification	CodeCode Available	0
Understanding Software Engineering Agents Through the Lens of Traceability: An Empirical Study	Jun 10, 2025	Code GenerationDecision Making	—Unverified	0
HGFormer: A Hierarchical Graph Transformer Framework for Two-Stage Colonel Blotto Games via Reinforcement Learning	Jun 10, 2025	Decision MakingGraph Neural Network	—Unverified	0
Implementing Keyword Spotting on the MCUX947 Microcontroller with Integrated NPU	Jun 10, 2025	CPUKeyword Spotting	—Unverified	0
NeurIPS 2024 ML4CFD Competition: Results and Retrospective Analysis	Jun 10, 2025	Computational EfficiencyOut-of-Distribution Generalization	—Unverified	0
Graph Prompting for Graph Learning Models: Recent Advances and Future Directions	Jun 10, 2025	Graph Learning	—Unverified	0
Diffusion-based Time Series Forecasting for Sewerage Systems	Jun 10, 2025	Prediction IntervalsTime Series	—Unverified	0
Towards Robust Deep Reinforcement Learning against Environmental State Perturbation	Jun 10, 2025	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
Real-Time Cascade Mitigation in Power Systems Using Influence Graph Improved by Reinforcement Learning	Jun 10, 2025	Decision Making	—Unverified	0
Better Reasoning with Less Data: Enhancing VLMs Through Unified Modality Scoring	Jun 10, 2025	Image Captioning	—Unverified	0
From Pixels to Graphs: using Scene and Knowledge Graphs for HD-EPIC VQA Challenge	Jun 10, 2025	Knowledge GraphsLanguage Modeling	—Unverified	0
Landsat-Bench: Datasets and Benchmarks for Landsat Foundation Models	Jun 10, 2025		CodeCode Available	1
Diffusion Models for Safety Validation of Autonomous Driving Systems	Jun 10, 2025	Autonomous DrivingDenoising	—Unverified	0
KP-PINNs: Kernel Packet Accelerated Physics Informed Neural Networks	Jun 10, 2025		CodeCode Available	0
Bridging RDF Knowledge Graphs with Graph Neural Networks for Semantically-Rich Recommender Systems	Jun 10, 2025	Knowledge GraphsRecommendation Systems	CodeCode Available	0
SkipVAR: Accelerating Visual Autoregressive Modeling via Adaptive Frequency-Aware Skipping	Jun 10, 2025	Image GenerationSSIM	CodeCode Available	0
AraReasoner: Evaluating Reasoning-Based LLMs for Arabic NLP	Jun 10, 2025	BenchmarkingSentiment Analysis	—Unverified	0
Same Task, Different Circuits: Disentangling Modality-Specific Mechanisms in VLMs	Jun 10, 2025		CodeCode Available	1
Measuring Data Science Automation: A Survey of Evaluation Tools for AI Assistants and Agents	Jun 10, 2025	Decision Making	—Unverified	0
RadioDUN: A Physics-Inspired Deep Unfolding Network for Radio Map Estimation	Jun 10, 2025	Compressive Sensing	—Unverified	0
Improved LLM Agents for Financial Document Question Answering	Jun 10, 2025	Question Answering	—Unverified	0
Bayesian Inverse Physics for Neuro-Symbolic Robot Learning	Jun 10, 2025	Bayesian InferenceDecision Making	—Unverified	0
Large Language Models Have Intrinsic Meta-Cognition, but Need a Good Lens	Jun 10, 2025	BenchmarkingMathematical Reasoning	—Unverified	0
Unlocking the Potential of Large Language Models in the Nuclear Industry with Synthetic Data	Jun 10, 2025	Decision MakingInformation Retrieval	—Unverified	0
Re4MPC: Reactive Nonlinear MPC for Multi-model Motion Planning via Deep Reinforcement Learning	Jun 10, 2025	Decision MakingDeep Reinforcement Learning	CodeCode Available	1
AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin	Jun 10, 2025		CodeCode Available	1
SceneSplat++: A Large Dataset and Comprehensive Benchmark for Language Gaussian Splatting	Jun 10, 2025	3DGSScene Understanding	—Unverified	0
Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model	Jun 10, 2025	Language ModelingLanguage Modelling	CodeCode Available	7
Know-MRI: A Knowledge Mechanisms Revealer&Interpreter for Large Language Models	Jun 10, 2025		CodeCode Available	1
Why Masking Diffusion Works: Condition on the Jump Schedule for Improved Discrete Diffusion	Jun 10, 2025		CodeCode Available	1
MoSiC: Optimal-Transport Motion Trajectory for Dense Self-Supervised Learning	Jun 10, 2025	Self-Supervised Learning	CodeCode Available	1
ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Preference Optimization	Jun 10, 2025		CodeCode Available	1
MIRAGE: Multimodal foundation model and benchmark for comprehensive retinal OCT image analysis	Jun 10, 2025	Segmentation	CodeCode Available	1