The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 17051–17100 of 474278 papers

Title	Date	Tasks	Status	Hype
Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models	Jun 9, 2025	In-Context Learning	—Unverified	0
Generative Models at the Frontier of Compression: A Survey on Generative Face Video Coding	Jun 9, 2025	BenchmarkingVideo Compression	—Unverified	0
Enhancing Adversarial Robustness with Conformal Prediction: A Framework for Guaranteed Model Reliability	Jun 9, 2025	Adversarial AttackAdversarial Robustness	CodeCode Available	0
Addressing Correlated Latent Exogenous Variables in Debiased Recommender Systems	Jun 9, 2025	FairnessImputation	CodeCode Available	0
Improving Memory Efficiency for Training KANs via Meta Learning	Jun 9, 2025	image-classificationImage Classification	CodeCode Available	0
Play to Generalize: Learning to Reason Through Game Play	Jun 9, 2025	Domain GeneralizationMath	CodeCode Available	2
HAIBU-ReMUD: Reasoning Multimodal Ultrasound Dataset and Model Bridging to General Specific Domains	Jun 9, 2025	DiagnosticQuestion Answering	CodeCode Available	0
APTOS-2024 challenge report: Generation of synthetic 3D OCT images from fundus photographs	Jun 9, 2025	Image Generation	—Unverified	0
CXR-LT 2024: A MICCAI challenge on long-tailed, multi-label, and zero-shot disease classification from chest X-ray	Jun 9, 2025	ClassificationDiagnostic	—Unverified	0
Coordinating Search-Informed Reasoning and Reasoning-Guided Search in Claim Verification	Jun 9, 2025	Claim Verification	—Unverified	0
ProteinZero: Self-Improving Protein Generation via Online Reinforcement Learning	Jun 9, 2025	DiversityGPU	—Unverified	0
Private Memorization Editing: Turning Memorization into a Defense to Strengthen Data Privacy in Large Language Models	Jun 9, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
From Static to Adaptive Defense: Federated Multi-Agent Deep Reinforcement Learning-Driven Moving Target Defense Against DoS Attacks in UAV Swarm Networks	Jun 9, 2025	Deep Reinforcement Learning	CodeCode Available	0
Rethinking Crowd-Sourced Evaluation of Neuron Explanations	Jun 9, 2025		CodeCode Available	0
Dataset combining EEG, eye-tracking, and high-speed video for ocular activity analysis across BCI paradigms	Jun 9, 2025	Brain Computer InterfaceEEG	CodeCode Available	0
Evaluating Large Language Models on the Frame and Symbol Grounding Problems: A Zero-shot Benchmark	Jun 9, 2025	Quantization	CodeCode Available	0
R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation	Jun 9, 2025	3DGSAutonomous Driving	—Unverified	0
ProARD: progressive adversarial robustness distillation: provide wide range of robust students	Jun 9, 2025	Adversarial Robustness	CodeCode Available	0
MultiMatch: Multihead Consistency Regularization Matching for Semi-Supervised Text Classification	Jun 9, 2025	Pseudo LabelSemi-Supervised Text Classification	—Unverified	0
The Universality Lens: Why Even Highly Over-Parametrized Models Learn Well	Jun 9, 2025	Ensemble LearningLearning Theory	—Unverified	0
Learning Speaker-Invariant Visual Features for Lipreading	Jun 9, 2025	DisentanglementLipreading	—Unverified	0
Synesthesia of Machines (SoM)-Aided Online FDD Precoding via Heterogeneous Multi-Modal Sensing: A Vertical Federated Learning Approach	Jun 9, 2025	Federated LearningVertical Federated Learning	—Unverified	0
PhysiInter: Integrating Physical Mapping for High-Fidelity Human Interaction Generation	Jun 9, 2025	Motion Generationvalid	—Unverified	0
Federated In-Context Learning: Iterative Refinement for Improved Answer Quality	Jun 9, 2025	In-Context LearningQuestion Answering	—Unverified	0
AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking	Jun 9, 2025	Reinforcement Learning (RL)	—Unverified	0
SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence	Jun 9, 2025		CodeCode Available	1
BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation	Jun 9, 2025	QuantizationVision-Language-Action	CodeCode Available	2
Speedy Deformable 3D Gaussian Splatting: Fast Rendering and Compression of Dynamic Scenes	Jun 9, 2025	3DGSNeRF	CodeCode Available	2
WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning	Jun 9, 2025	MathMathematical Reasoning	CodeCode Available	1
Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces	Jun 9, 2025	Image GenerationText Generation	CodeCode Available	1
LogoSP: Local-global Grouping of Superpoints for Unsupervised Semantic Segmentation of 3D Point Clouds	Jun 9, 2025	3D Semantic SegmentationSegmentation	CodeCode Available	1
FunDiff: Diffusion Models over Function Spaces for Physics-Informed Generative Modeling	Jun 9, 2025	Density Estimation	CodeCode Available	2
HuSc3D: Human Sculpture dataset for 3D object reconstruction	Jun 9, 2025	3D Object Reconstruction3D Reconstruction	CodeCode Available	0
StableMTL: Repurposing Latent Diffusion Models for Multi-Task Learning from Partially Annotated Synthetic Datasets	Jun 9, 2025	DenoisingMulti-Task Learning	CodeCode Available	1
From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium	Jun 9, 2025	Hierarchical Reinforcement Learning	CodeCode Available	1
RADAR: Benchmarking Language Models on Imperfect Tabular Data	Jun 9, 2025	BenchmarkingMissing Values	CodeCode Available	1
ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving	Jun 9, 2025	Autonomous DrivingImitation Learning	—Unverified	0
AutoSDT: Scaling Data-Driven Discovery Tasks Toward Open Co-Scientists	Jun 9, 2025	scientific discoveryvalid	—Unverified	0
Nearness of Neighbors Attention for Regression in Supervised Finetuning	Jun 9, 2025	Predictionregression	CodeCode Available	0
Can AI Validate Science? Benchmarking LLMs for Accurate Scientific Claim Evidence Reasoning	Jun 9, 2025	BenchmarkingDiagnostic	CodeCode Available	0
A Real-time 3D Desktop Display	Jun 9, 2025	TAG	CodeCode Available	0
Parameter-free approximate equivariance for tasks with finite group symmetry	Jun 9, 2025	Inductive Bias	CodeCode Available	0
ST-GraphNet: A Spatio-Temporal Graph Neural Network for Understanding and Predicting Automated Vehicle Crash Severity	Jun 9, 2025	Graph AttentionGraph Neural Network	—Unverified	0
STAMImputer: Spatio-Temporal Attention MoE for Traffic Data Imputation	Jun 9, 2025	Graph AttentionImputation	CodeCode Available	0
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation	Jun 9, 2025	Image Generation	CodeCode Available	2
ARGUS: Hallucination and Omission Evaluation in Video-LLMs	Jun 9, 2025	DescriptiveForm	—Unverified	0
Ensuring Reliability of Curated EHR-Derived Data: The Validation of Accuracy for LLM/ML-Extracted Information and Data (VALID) Framework	Jun 9, 2025	BenchmarkingFairness	—Unverified	0
Dealing with the Evil Twins: Improving Random Augmentation by Addressing Catastrophic Forgetting of Diverse Augmentations	Jun 9, 2025	Data AugmentationDomain Generalization	—Unverified	0
A System for Accurate Tracking and Video Recordings of Rodent Eye Movements using Convolutional Neural Networks for Biomedical Image Segmentation	Jun 9, 2025	Image SegmentationSemantic Segmentation	—Unverified	0
CaliciBoost: Performance-Driven Evaluation of Molecular Representations for Caco-2 Permeability Prediction	Jun 9, 2025	AutoMLDiversity	—Unverified	0