The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 20001–20050 of 474278 papers

Title	Date	Tasks	Status	Hype
Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition	May 28, 2025	Large Language Model	—Unverified	0
Fast Feature Matching of UAV Images via Matrix Band Reduction-based GPU Data Schedule	May 28, 2025	CPUGPU	—Unverified	0
PathFL: Multi-Alignment Federated Learning for Pathology Image Segmentation	May 28, 2025	Federated LearningImage Segmentation	CodeCode Available	0
HydraNet: Momentum-Driven State Space Duality for Multi-Granularity Tennis Tournaments Analysis	May 28, 2025		CodeCode Available	0
When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy	May 28, 2025		CodeCode Available	0
Maximizing Confidence Alone Improves Reasoning	May 28, 2025	GSM8KMath	—Unverified	0
Can Large Language Models Match the Conclusions of Systematic Reviews?	May 28, 2025	Articles	CodeCode Available	0
On the Dynamic Regret of Following the Regularized Leader: Optimism with History Pruning	May 28, 2025		CodeCode Available	0
GateNLP at SemEval-2025 Task 10: Hierarchical Three-Step Prompting for Multilingual Narrative Classification	May 28, 2025	ArticlesLanguage Modeling	CodeCode Available	0
Test-time augmentation improves efficiency in conformal prediction	May 28, 2025	Conformal PredictionPrediction	—Unverified	0
Pre-Training Curriculum for Multi-Token Prediction in Language Models	May 28, 2025	Prediction	CodeCode Available	1
Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO	May 28, 2025	MathReinforcement Learning (RL)	CodeCode Available	2
Training Language Models to Generate Quality Code with Program Analysis Feedback	May 28, 2025	Code Generation	CodeCode Available	1
RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments	May 28, 2025	BenchmarkingRed Teaming	CodeCode Available	1
Test-Time Adaptation of Vision-Language Models for Open-Vocabulary Semantic Segmentation	May 28, 2025	image-classificationImage Classification	CodeCode Available	1
Preventing Spurious Interactions: A New Inductive Bias for Accurate Treatment Effect Estimation	May 28, 2025	Causal InferenceInductive Bias	CodeCode Available	0
Nonstationary blind deconvolution using spectral constraints	May 28, 2025	Geophysics	CodeCode Available	0
SHTOcc: Effective 3D Occupancy Prediction with Sparse Head and Tail Voxels	May 28, 2025	Autonomous DrivingGPU	CodeCode Available	0
Pre-training for Recommendation Unlearning	May 28, 2025	Recommendation Systems	CodeCode Available	0
HiDream-I1: A High-Efficient Image Generative Foundation Model with Sparse Diffusion Transformer	May 28, 2025	Image GenerationMixture-of-Experts	CodeCode Available	7
Deep Learning-Based BMD Estimation from Radiographs with Conformal Uncertainty Quantification	May 28, 2025	Conformal PredictionPrediction Intervals	—Unverified	0
Bayesian Attention Mechanism: A Probabilistic Framework for Positional Encoding and Context Length Extrapolation	May 28, 2025	Information RetrievalRetrieval	CodeCode Available	0
Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape	May 28, 2025	GPU	CodeCode Available	0
BOFormer: Learning to Solve Multi-Objective Bayesian Optimization via Non-Markovian RL	May 28, 2025	Bayesian OptimizationHyperparameter Optimization	—Unverified	0
Leveraging Diffusion Models for Synthetic Data Augmentation in Protein Subcellular Localization Classification	May 28, 2025	Data AugmentationDenoising	—Unverified	0
BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models	May 28, 2025	Speech Synthesis	—Unverified	0
HiLDe: Intentional Code Generation via Human-in-the-Loop Decoding	May 28, 2025	Code CompletionCode Generation	—Unverified	0
MAC-Gaze: Motion-Aware Continual Calibration for Mobile Gaze Tracking	May 28, 2025	Activity RecognitionContinual Learning	—Unverified	0
Principled Out-of-Distribution Generalization via Simplicity	May 28, 2025	Image GenerationOut-of-Distribution Generalization	—Unverified	0
Enhancing Lifelong Multi-Agent Path-finding by Using Artificial Potential Fields	May 28, 2025	Multi-Agent Path Finding	—Unverified	0
Anomalies by Synthesis: Anomaly Detection using Generative Diffusion Models for Off-Road Navigation	May 28, 2025	Anomaly DetectionNavigate	—Unverified	0
CrossNAS: A Cross-Layer Neural Architecture Search Framework for PIM Systems	May 28, 2025	Neural Architecture Search	—Unverified	0
Causal-PIK: Causality-based Physical Reasoning with a Physics-Informed Kernel	May 28, 2025	Bayesian Optimization	—Unverified	0
A comprehensive analysis of PINNs: Variants, Applications, and Challenges	May 28, 2025	Survey	—Unverified	0
Permissioned LLMs: Enforcing Access Control in Large Language Models	May 28, 2025	parameter-efficient fine-tuning	—Unverified	0
Operationalizing CaMeL: Strengthening LLM Defenses for Enterprise Deployment	May 28, 2025	Language ModelingLanguage Modelling	—Unverified	0
Security Benefits and Side Effects of Labeling AI-Generated Images	May 28, 2025	Misinformation	—Unverified	0
Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift?	May 28, 2025	Active Learning	—Unverified	0
Private Rate-Constrained Optimization with Applications to Fair Learning	May 28, 2025	Fairness	—Unverified	0
NegVQA: Can Vision Language Models Understand Negation?	May 28, 2025	NegationQuestion Answering	—Unverified	0
Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates	May 28, 2025	BenchmarkingDiversity	—Unverified	0
NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding	May 28, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
StressTest: Can YOUR Speech LM Handle the Stress?	May 28, 2025	Question AnsweringSentence	—Unverified	0
Forecasting Residential Heating and Electricity Demand with Scalable, High-Resolution, Open-Source Models	May 28, 2025	Probabilistic Deep Learning	—Unverified	0
Optimal Auction Design for Dynamic Stochastic Environments: Myerson Meets Naor	May 28, 2025	Cloud Computing	—Unverified	0
Plug-and-Play Posterior Sampling for Blind Inverse Problems	May 28, 2025	Blind Image DeblurringDeblurring	—Unverified	0
Kernel-Smoothed Scores for Denoising Diffusion: A Bias-Variance Study	May 28, 2025	DenoisingMemorization	—Unverified	0
GLAMP: An Approximate Message Passing Framework for Transfer Learning with Applications to Lasso-based Estimators	May 28, 2025	DenoisingTransfer Learning	—Unverified	0
HelixDesign-Binder: A Scalable Production-Grade Platform for Binder Design Built on HelixFold3	May 28, 2025	BenchmarkingEfficient Exploration	—Unverified	0
Do Large Language Models Think Like the Brain? Sentence-Level Evidence from fMRI and Hierarchical Embeddings	May 28, 2025	Sentence	—Unverified	0