The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 16401–16450 of 474278 papers

Title	Date	Tasks	Status	Hype
Scoop-and-Toss: Dynamic Object Collection for Quadrupedal Systems	Jun 11, 2025	Object	—Unverified	0
Bayesian Probabilistic Matrix Factorization	Jun 11, 2025	Bayesian InferenceComputational Efficiency	—Unverified	0
Flipping Against All Odds: Reducing LLM Coin Flip Bias via Verbalized Rejection Sampling	Jun 11, 2025	AllDecision Making	—Unverified	0
Gender Bias in English-to-Greek Machine Translation	Jun 11, 2025	Machine TranslationTranslation	CodeCode Available	0
EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits	Jun 11, 2025	Artifact DetectionCaption Generation	—Unverified	0
ECAM: A Contrastive Learning Approach to Avoid Environmental Collision in Trajectory Forecasting	Jun 11, 2025	Autonomous DrivingCollision Avoidance	CodeCode Available	0
Efficient Part-level 3D Object Generation via Dual Volume Packing	Jun 11, 2025	DiversityObject	CodeCode Available	4
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs	Jun 11, 2025	Code GenerationDiagnostic	CodeCode Available	1
Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models	Jun 11, 2025	DiversitySemantic Similarity	CodeCode Available	1
The Four Color Theorem for Cell Instance Segmentation	Jun 11, 2025	Computational EfficiencyInstance Segmentation	CodeCode Available	1
Leveraging Depth and Language for Open-Vocabulary Domain-Generalized Semantic Segmentation	Jun 11, 2025	Autonomous DrivingDomain Generalization	CodeCode Available	1
Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing	Jun 11, 2025	Multimodal ReasoningSpatial Reasoning	CodeCode Available	2
Revisiting Diffusion Models: From Generative Pre-training to One-Step Generation	Jun 11, 2025		CodeCode Available	1
LPO: Towards Accurate GUI Agent Interaction via Location Preference Optimization	Jun 11, 2025		CodeCode Available	0
Learning to Align: Addressing Character Frequency Distribution Shifts in Handwritten Text Recognition	Jun 11, 2025	Handwritten Text Recognition	CodeCode Available	0
TooBadRL: Trigger Optimization to Boost Effectiveness of Backdoor Attacks on Deep Reinforcement Learning	Jun 11, 2025	Deep Reinforcement LearningSequential Decision Making	CodeCode Available	0
Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy	Jun 11, 2025	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	0
Analyzing Emotions in Bangla Social Media Comments Using Machine Learning and LIME	Jun 11, 2025	Emotion RecognitionSentiment Analysis	—Unverified	0
Can LLMs Generate Good Stories? Insights and Challenges from a Narrative Planning Perspective	Jun 11, 2025	Story Generation	—Unverified	0
Survival Analysis as Imprecise Classification with Trainable Kernels	Jun 11, 2025	Survival Analysis	CodeCode Available	0
Optimizing Latent Dimension Allocation in Hierarchical VAEs: Balancing Attenuation and Information Retention for OOD Detection	Jun 11, 2025	Out of Distribution (OOD) Detection	—Unverified	0
Scalable Non-Equivariant 3D Molecule Generation via Rotational Alignment	Jun 11, 2025	3D Molecule GenerationDenoising	CodeCode Available	0
Wasserstein Barycenter Soft Actor-Critic	Jun 11, 2025	continuous-controlContinuous Control	—Unverified	0
AWP: Activation-Aware Weight Pruning and Quantization with Projected Gradient Descent	Jun 11, 2025	Model CompressionQuantization	—Unverified	0
Meet Me at the Arm: The Cooperative Multi-Armed Bandits Problem with Shareable Arms	Jun 11, 2025	Capacity EstimationMulti-Armed Bandits	—Unverified	0
ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering	Jun 11, 2025	Chart Question AnsweringImage to text	—Unverified	0
TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games	Jun 11, 2025	Logical ReasoningMath	—Unverified	0
ToxSyn-PT: A Large-Scale Synthetic Dataset for Hate Speech Detection in Portuguese	Jun 11, 2025	Hate Speech DetectionMulti-Label Classification	—Unverified	0
Probabilistic Variational Contrastive Learning	Jun 11, 2025	Contrastive LearningDecoder	—Unverified	0
Self-Predictive Representations for Combinatorial Generalization in Behavioral Cloning	Jun 11, 2025	Representation Learning	—Unverified	0
A Comparative Study of Machine Learning Techniques for Early Prediction of Diabetes	Jun 11, 2025	Diabetes Prediction	—Unverified	0
Unsupervised Deep Clustering of MNIST with Triplet-Enhanced Convolutional Autoencoders	Jun 11, 2025	ClusteringDeep Clustering	—Unverified	0
Physiological-Model-Based Neural Network for Heart Rate Estimation during Daily Physical Activities	Jun 11, 2025	Heart rate estimation	—Unverified	0
Balanced Hyperbolic Embeddings Are Natural Out-of-Distribution Detectors	Jun 11, 2025	Out-of-Distribution Generalization	—Unverified	0
Optimizing Genetic Algorithms with Multilayer Perceptron Networks for Enhancing TinyFace Recognition	Jun 11, 2025	Dimensionality ReductionFeature Engineering	—Unverified	0
Cross-Learning Between ECG and PCG: Exploring Common and Exclusive Characteristics of Bimodal Electromechanical Cardiac Waveforms	Jun 11, 2025	Electrocardiography (ECG)	—Unverified	0
Improving Oral Cancer Outcomes Through Machine Learning and Dimensionality Reduction	Jun 11, 2025	DiagnosticDimensionality Reduction	—Unverified	0
LaMAGIC2: Advanced Circuit Formulations for Language Model-Based Analog Topology Generation	Jun 11, 2025	Language ModelingLanguage Modelling	—Unverified	0
A new type of federated clustering: A non-model-sharing approach	Jun 11, 2025	ClusteringFederated Learning	—Unverified	0
Bridging the Gap Between Open-Source and Proprietary LLMs in Table QA	Jun 11, 2025	Code GenerationLanguage Modeling	CodeCode Available	0
Noise Conditional Variational Score Distillation	Jun 11, 2025	Conditional Image GenerationDenoising	CodeCode Available	1
When Large Language Models are Reliable for Judging Empathic Communication	Jun 11, 2025		CodeCode Available	0
CoRT: Code-integrated Reasoning within Thinking	Jun 11, 2025	Mathematical Reasoning	CodeCode Available	2
Urban1960SatSeg: Unsupervised Semantic Segmentation of Mid-20^th century Urban Landscapes with Satellite Imageries	Jun 11, 2025	SegmentationSelf-Supervised Learning	CodeCode Available	2
Classifying Unreliable Narrators with Large Language Models	Jun 11, 2025		CodeCode Available	0
Prompt Attacks Reveal Superficial Knowledge Removal in Unlearning Methods	Jun 11, 2025	Machine UnlearningTAR	—Unverified	0
When Meaning Stays the Same, but Models Drift: Evaluating Quality of Service under Token-Level Behavioral Instability in LLMs	Jun 11, 2025	Diagnostic	CodeCode Available	0
Aspect-Based Opinion Summarization with Argumentation Schemes	Jun 11, 2025	Opinion Summarization	—Unverified	0
Geometric Regularity in Deterministic Sampling of Diffusion-based Generative Models	Jun 11, 2025	Image Generation	—Unverified	0
Unsupervised Elicitation of Language Models	Jun 11, 2025	GSM8KTruthfulQA	—Unverified	0