The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15001–15050 of 474278 papers

Title	Date	Tasks	Status	Hype
Utility-Driven Speculative Decoding for Mixture-of-Experts	Jun 17, 2025	GPULarge Language Model	—Unverified	0
Event-Driven Online Vertical Federated Learning	Jun 17, 2025	Federated LearningVertical Federated Learning	—Unverified	0
Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching	Jun 17, 2025	Keyword Extraction	—Unverified	0
CNN-Enabled Scheduling for Probabilistic Real-Time Guarantees in Industrial URLLC	Jun 17, 2025	Scheduling	—Unverified	0
FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization	Jun 17, 2025	Large Language Model	—Unverified	0
OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents	Jun 17, 2025		CodeCode Available	2
A Comparative Evaluation of Deep Learning Models for Speech Enhancement in Real-World Noisy Environments	Jun 17, 2025	DenoisingSpeaker Recognition	—Unverified	0
Efficient Serving of LLM Applications with Probabilistic Demand Modeling	Jun 17, 2025	Scheduling	—Unverified	0
LLM Jailbreak Oracle	Jun 17, 2025	LLM Jailbreak	—Unverified	0
Efficient Retail Video Annotation: A Robust Key Frame Generation Approach for Product and Customer Interaction Analysis	Jun 17, 2025	Activity Recognition	—Unverified	0
Preparing for the Intelligence Explosion	Jun 17, 2025	Decision Making	—Unverified	0
Towards Perception-based Collision Avoidance for UAVs when Guiding the Visually Impaired	Jun 17, 2025	Autonomous NavigationCollision Avoidance	—Unverified	0
Explain First, Trust Later: LLM-Augmented Explanations for Graph-Based Crypto Anomaly Detection	Jun 17, 2025	Anomaly Detection	CodeCode Available	0
Equivariance Everywhere All At Once: A Recipe for Graph Foundation Models	Jun 17, 2025	AllNode Classification	CodeCode Available	1
Lightweight Relevance Grader in RAG	Jun 17, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
SCISSOR: Mitigating Semantic Bias through Cluster-Aware Siamese Networks for Robust Classification	Jun 17, 2025	Data AugmentationRobust classification	CodeCode Available	0
M2BeamLLM: Multimodal Sensing-empowered mmWave Beam Prediction with Large Language Models	Jun 17, 2025	Beam PredictionDiversity	—Unverified	0
From Bytes to Ideas: Language Modeling with Autoregressive U-Nets	Jun 17, 2025	Language ModelingLanguage Modelling	CodeCode Available	7
LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs	Jun 17, 2025		CodeCode Available	2
DreamLight: Towards Harmonious and Consistent Image Relighting	Jun 17, 2025	DisentanglementImage Relighting	—Unverified	0
I Speak and You Find: Robust 3D Visual Grounding with Noisy and Ambiguous Speech Inputs	Jun 17, 2025	3D visual groundingContrastive Learning	—Unverified	0
A Variational Information Theoretic Approach to Out-of-Distribution Detection	Jun 17, 2025	Out-of-Distribution DetectionOut of Distribution (OOD) Detection	—Unverified	0
Less is More: Undertraining Experts Improves Model Upcycling	Jun 17, 2025	Memorizationmodel	—Unverified	0
A Multi-Expert Structural-Semantic Hybrid Framework for Unveiling Historical Patterns in Temporal Knowledge Graphs	Jun 17, 2025	Graph structure learningKnowledge Graphs	CodeCode Available	0
MAS-LitEval : Multi-Agent System for Literary Translation Quality Assessment	Jun 17, 2025	Translation	—Unverified	0
Automated Decision-Making on Networks with LLMs through Knowledge-Guided Evolution	Jun 17, 2025	Decision MakingGraph Learning	—Unverified	0
DDS-NAS: Dynamic Data Selection within Neural Architecture Search via On-line Hard Example Mining applied to Image Classification	Jun 17, 2025	image-classificationImage Classification	—Unverified	0
Exploring Diffusion with Test-Time Training on Efficient Image Restoration	Jun 17, 2025	DenoisingImage Restoration	—Unverified	0
Align Your Flow: Scaling Continuous-Time Flow Map Distillation	Jun 17, 2025	Image Generation	—Unverified	0
Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models	Jun 17, 2025	geo-localization	—Unverified	0
Active InSAR monitoring of building damage in Gaza during the Israel-Hamas War	Jun 17, 2025	ARCChange Detection	—Unverified	0
Cost-Aware Routing for Efficient Text-To-Image Generation	Jun 17, 2025	DenoisingImage Generation	—Unverified	0
orGAN: A Synthetic Data Augmentation Pipeline for Simultaneous Generation of Surgical Images and Ground Truth Labels	Jun 17, 2025	Data AugmentationDiversity	—Unverified	0
BRISC: Annotated Dataset for Brain Tumor Segmentation and Classification with Swin-HAFNet	Jun 17, 2025	Brain Tumor SegmentationMedical Image Analysis	—Unverified	0
Compressed Video Super-Resolution based on Hierarchical Encoding	Jun 17, 2025	QuantizationSuper-Resolution	—Unverified	0
Enclosing Prototypical Variational Autoencoder for Explainable Out-of-Distribution Detection	Jun 17, 2025	Decision MakingOut-of-Distribution Detection	—Unverified	0
A large-scale heterogeneous 3D magnetic resonance brain imaging dataset for self-supervised learning	Jun 17, 2025	BenchmarkingSelf-Supervised Learning	—Unverified	0
Towards Reliable WMH Segmentation under Domain Shift: An Application Study using Maximum Entropy Regularization to Improve Uncertainty Estimation	Jun 17, 2025	Decision MakingSegmentation	—Unverified	0
Train Once, Forget Precisely: Anchored Optimization for Efficient Post-Hoc Unlearning	Jun 17, 2025	image-classificationImage Classification	—Unverified	0
Plug-and-Play with 2.5D Artifact Reduction Prior for Fast and Accurate Industrial Computed Tomography Reconstruction	Jun 17, 2025	3D ReconstructionDefect Detection	—Unverified	0
Explainable Detection of Implicit Influential Patterns in Conversations via Data Augmentation	Jun 17, 2025	Data AugmentationMulti-Label Classification	—Unverified	0
Expectation Confirmation Preference Optimization for Multi-Turn Conversational Recommendation Agent	Jun 17, 2025	Conversational Recommendation	—Unverified	0
Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality	Jun 17, 2025	Code GenerationMathematical Reasoning	—Unverified	0
Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers	Jun 17, 2025	Instruction FollowingPrompt Engineering	—Unverified	0
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs	Jun 17, 2025	Data IntegrationLarge Language Model	—Unverified	0
Reasoning with Exploration: An Entropy Perspective	Jun 17, 2025	Reinforcement Learning (RL)	—Unverified	0
FormGym: Doing Paperwork with Agents	Jun 17, 2025	FormInformation Retrieval	—Unverified	0
ADRD: LLM-Driven Autonomous Driving Based on Rule-based Decision Systems	Jun 17, 2025	Autonomous DrivingDecision Making	—Unverified	0
AviationLLM: An LLM-based Knowledge System for Aviation Training	Jun 17, 2025	RAGRetrieval	—Unverified	0
Don't Make It Up: Preserving Ignorance Awareness in LLM Fine-Tuning	Jun 17, 2025	Language ModelingLanguage Modelling	—Unverified	0