The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 18101–18150 of 474278 papers

Title	Date	Tasks	Status	Hype
Geoff: The Generic Optimization Framework & Frontend for Particle Accelerator Controls	Jun 4, 2025	Friction	—Unverified	0
RSVP: Reasoning Segmentation via Visual Prompting and Multi-modal Chain-of-Thought	Jun 4, 2025	Multimodal ReasoningReasoning Segmentation	—Unverified	0
Evaluating MLLMs with Multimodal Multi-image Reasoning Benchmark	Jun 4, 2025	SentenceVisual Reasoning	—Unverified	0
Is Perturbation-Based Image Protection Disruptive to Image Editing?	Jun 4, 2025	Image GenerationMisinformation	—Unverified	0
HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation	Jun 4, 2025	AllImage Generation	—Unverified	0
AuthGuard: Generalizable Deepfake Detection via Language Guidance	Jun 4, 2025	Contrastive LearningDeepFake Detection	—Unverified	0
Generating Pedagogically Meaningful Visuals for Math Word Problems: A New Benchmark and Analysis of Text-to-Image Models	Jun 4, 2025	Math	CodeCode Available	1
STAR: Learning Diverse Robot Skill Abstractions through Rotation-Augmented Vector Quantization	Jun 4, 2025	Action GenerationQuantization	CodeCode Available	0
A Retrieval-Augmented Multi-Agent Framework for Psychiatry Diagnosis	Jun 4, 2025	DiagnosticRetrieval	CodeCode Available	0
Matter-of-Fact: A Benchmark for Verifying the Feasibility of Literature-Supported Claims in Materials Science	Jun 4, 2025	ArticlesCode Generation	CodeCode Available	0
HTSC-2025: A Benchmark Dataset of Ambient-Pressure High-Temperature Superconductors for AI-Driven Critical Temperature Prediction	Jun 4, 2025		CodeCode Available	0
Curse of Slicing: Why Sliced Mutual Information is a Deceptive Measure of Statistical Dependence	Jun 4, 2025	Benchmarking	—Unverified	0
Fine-Tuning Video Transformers for Word-Level Bangla Sign Language: A Comparative Analysis for Classification Tasks	Jun 4, 2025	Data AugmentationModel Selection	—Unverified	0
AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment	Jun 4, 2025	Common Sense Reasoning	CodeCode Available	0
How Far Are We from Predicting Missing Modalities with Foundation Models?	Jun 4, 2025	Prediction	CodeCode Available	0
A Kernel-Based Approach for Accurate Steady-State Detection in Performance Time Series	Jun 4, 2025	BenchmarkingIrregular Time Series	CodeCode Available	0
Savage-Dickey density ratio estimation with normalizing flows for Bayesian model comparison	Jun 4, 2025	Density Ratio Estimation	CodeCode Available	2
Seed-Coder: Let the Code Model Curate Data for Itself	Jun 4, 2025	Code CompletionCode Generation	CodeCode Available	4
Probabilistic measures afford fair comparisons of AIWP and NWP model output	Jun 4, 2025		CodeCode Available	0
CHIME: Conditional Hallucination and Integrated Multi-scale Enhancement for Time Series Diffusion Model	Jun 4, 2025	DenoisingHallucination	—Unverified	0
Learning-at-Criticality in Large Language Models for Quantum Field Theory and Beyond	Jun 4, 2025	Arithmetic ReasoningReinforcement Learning (RL)	—Unverified	0
Fast Sampling for System Identification: Overcoming Noise, Offsets, and Closed-Loop Challenges with State Variable Filter	Jun 4, 2025	Unity	—Unverified	0
Confidence-Guided Human-AI Collaboration: Reinforcement Learning with Distributional Proxy Value Propagation for Autonomous Driving	Jun 4, 2025	Autonomous DrivingImitation Learning	CodeCode Available	0
BEAR: BGP Event Analysis and Reporting	Jun 4, 2025	In-Context LearningSynthetic Data Generation	CodeCode Available	0
Leveraging Reward Models for Guiding Code Review Comment Generation	Jun 4, 2025	Comment Generation	CodeCode Available	0
Dreaming up scale invariance via inverse renormalization group	Jun 4, 2025		CodeCode Available	0
Visualizing and Controlling Cortical Responses Using Voxel-Weighted Activation Maximization	Jun 4, 2025		CodeCode Available	0
Towards Large-Scale Pose-Invariant Face Recognition Using Face Defrontalization	Jun 4, 2025	Face AlignmentFace Recognition	—Unverified	0
WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning	Jun 4, 2025	counterfactualMotion Planning	—Unverified	0
WANDER: An Explainable Decision-Support Framework for HPC	Jun 4, 2025	counterfactual	—Unverified	0
cuVSLAM: CUDA accelerated visual odometry and mapping	Jun 4, 2025	Edge-computingPose Estimation	—Unverified	0
RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics	Jun 4, 2025	Spatial Reasoning	—Unverified	0
Temporal horizons in forecasting: a performance-learnability trade-off	Jun 4, 2025	Hyperparameter Optimization	—Unverified	0
Can we reconstruct a dysarthric voice with the large speech model Parler TTS?	Jun 4, 2025	text-to-speechText to Speech	—Unverified	0
LaF-GRPO: In-Situ Navigation Instruction Generation for the Visually Impaired via GRPO with LLM-as-Follower Reward	Jun 4, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis	Jun 4, 2025	Action GenerationDecision Making	CodeCode Available	1
FALO: Fast and Accurate LiDAR 3D Object Detection on Resource-Constrained Devices	Jun 4, 2025	3D Object DetectionGPU	—Unverified	0
Domain Adaptation Method and Modality Gap Impact in Audio-Text Models for Prototypical Sound Classification	Jun 4, 2025	ClassificationDomain Adaptation	CodeCode Available	0
AssetOpsBench: Benchmarking AI Agents for Task Automation in Industrial Asset Operations and Maintenance	Jun 4, 2025	BenchmarkingScheduling	CodeCode Available	5
SGN-CIRL: Scene Graph-based Navigation with Curriculum, Imitation, and Reinforcement Learning	Jun 4, 2025	Imitation LearningNavigate	CodeCode Available	0
Zero-Shot Temporal Interaction Localization for Egocentric Videos	Jun 4, 2025	Action LocalizationHuman-Object Interaction Detection	CodeCode Available	1
Graph Counselor: Adaptive Graph Exploration via Multi-Agent Synergy to Enhance LLM Reasoning	Jun 4, 2025	Retrieval-augmented Generation	CodeCode Available	1
Adapt before Continual Learning	Jun 4, 2025	Continual Learning	CodeCode Available	0
Do Large Language Models Know Folktales? A Case Study of Yokai in Japanese Folktales	Jun 4, 2025	Multiple-choice	—Unverified	0
SSIMBaD: Sigma Scaling with SSIM-Guided Balanced Diffusion for AnimeFace Colorization	Jun 4, 2025	ColorizationSSIM	CodeCode Available	0
FPGA-Enabled Machine Learning Applications in Earth Observation: A Systematic Review	Jun 4, 2025	Decision MakingEarth Observation	CodeCode Available	0
GARG-AML against Smurfing: A Scalable and Interpretable Graph-Based Framework for Anti-Money Laundering	Jun 4, 2025	Computational EfficiencyFraud Detection	CodeCode Available	0
N^2: A Unified Python Package and Test Bench for Nearest Neighbor-Based Matrix Completion	Jun 4, 2025	BenchmarkingCausal Inference	—Unverified	0
Through the Stealth Lens: Rethinking Attacks and Defenses in RAG	Jun 4, 2025	RAGRetrieval-augmented Generation	CodeCode Available	0
Magic Mushroom: A Customizable Benchmark for Fine-grained Analysis of Retrieval Noise Erosion in RAG Systems	Jun 4, 2025	DenoisingHallucination	—Unverified	0