The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 19601–19650 of 474278 papers

Title	Date	Tasks	Status	Hype
Engineering Serendipity through Recommendations of Items with Atypical Aspects	May 29, 2025	In-Context Learning	CodeCode Available	0
Bayesian Neural Scaling Laws Extrapolation with Prior-Fitted Networks	May 29, 2025	Active Learning	CodeCode Available	0
Subgraph Gaussian Embedding Contrast for Self-Supervised Graph Representation Learning	May 29, 2025	Contrastive LearningGraph Representation Learning	CodeCode Available	0
ProDiff: Prototype-Guided Diffusion for Minimal Information Trajectory Imputation	May 29, 2025	DenoisingImputation	CodeCode Available	1
Score-based Generative Modeling for Conditional Independence Testing	May 29, 2025		CodeCode Available	0
How does Transformer Learn Implicit Reasoning?	May 29, 2025	ClusteringDiagnostic	CodeCode Available	1
Uncovering Visual-Semantic Psycholinguistic Properties from the Distributional Structure of Text Embedding Spac	May 29, 2025		CodeCode Available	0
SNS-Bench-VL: Benchmarking Multimodal Large Language Models in Social Networking Services	May 29, 2025	BenchmarkingInformation Retrieval	CodeCode Available	0
MMBoundary: Advancing MLLM Knowledge Boundary Awareness through Reasoning Step Confidence Calibration	May 29, 2025	HallucinationMultimodal Reasoning	CodeCode Available	0
GeNRe: A French Gender-Neutral Rewriting System Using Collective Nouns	May 29, 2025		CodeCode Available	0
Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents	May 29, 2025	Meta-Learning	CodeCode Available	5
SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents	May 29, 2025	Adversarial AttackLarge Language Model	CodeCode Available	1
Data-to-Dashboard: Multi-Agent LLM Framework for Insightful Visualization in Enterprise Analytics	May 29, 2025		CodeCode Available	1
Vision Language Models are Biased	May 29, 2025	Board Gamescounterfactual	CodeCode Available	2
Estimation of Head Motion in Structural MRI and its Impact on Cortical Thickness Measurements in Retrospective Data	May 29, 2025		CodeCode Available	0
ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks	May 29, 2025	Spatial Reasoning	CodeCode Available	2
D-AR: Diffusion via Autoregressive Models	May 29, 2025	Denoising	CodeCode Available	2
ChartMind: A Comprehensive Benchmark for Complex Real-world Multimodal Chart Question Answering	May 29, 2025	Chart Question AnsweringChart Understanding	—Unverified	0
LlamaRL: A Distributed Asynchronous Reinforcement Learning Framework for Efficient Large-scale LLM Trainin	May 29, 2025	GPUReinforcement Learning (RL)	—Unverified	0
From Token to Action: State Machine Reasoning to Mitigate Overthinking in Information Retrieval	May 29, 2025	Information RetrievalRetrieval	CodeCode Available	0
Understanding Refusal in Language Models with Sparse Autoencoders	May 29, 2025		CodeCode Available	0
Merge-Friendly Post-Training Quantization for Multi-Target Domain Adaptation	May 29, 2025	Domain AdaptationMulti-target Domain Adaptation	CodeCode Available	0
Hallo4: High-Fidelity Dynamic Portrait Animation via Direct Preference Optimization and Temporal Motion Modulation	May 29, 2025	Portrait AnimationVideo Alignment	CodeCode Available	2
SGD as Free Energy Minimization: A Thermodynamic View on Neural Network Training	May 29, 2025	Attribute	CodeCode Available	0
Automated Modeling Method for Pathloss Model Discovery	May 29, 2025	Kolmogorov-Arnold Networksmodel	CodeCode Available	0
Improving the Effective Receptive Field of Message-Passing Neural Networks	May 29, 2025	Graph ClassificationGraph Regression	CodeCode Available	1
Towards Reward Fairness in RLHF: From a Resource Allocation Perspective	May 29, 2025	Fairnessreinforcement-learning	CodeCode Available	0
Learning Parametric Distributions from Samples and Preferences	May 29, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
DiffER: Categorical Diffusion for Chemical Retrosynthesis	May 29, 2025	Retrosynthesis	CodeCode Available	0
LLM-based HSE Compliance Assessment: Benchmark, Performance, and Advancements	May 29, 2025	Legal Reasoning	CodeCode Available	0
The Arabic AI Fingerprint: Stylometric Analysis and Detection of Large Language Models Text	May 29, 2025	Misinformation	CodeCode Available	0
Child-Directed Language Does Not Consistently Boost Syntax Learning in Language Models	May 29, 2025		CodeCode Available	0
Probability-Consistent Preference Optimization for Enhanced LLM Reasoning	May 29, 2025	Mathematical Reasoning	CodeCode Available	0
On the Validity of Head Motion Patterns as Generalisable Depression Biomarkers	May 29, 2025	regression	—Unverified	0
Map&Make: Schema Guided Text to Table Generation	May 29, 2025	HallucinationInformation Retrieval	—Unverified	0
From Parameters to Prompts: Understanding and Mitigating the Factuality Gap between Fine-Tuned LLMs	May 29, 2025	Few-Shot LearningIn-Context Learning	—Unverified	0
DeepChest: Dynamic Gradient-Free Task Weighting for Effective Multi-Task Learning in Chest X-ray Classification	May 29, 2025	DiagnosticMulti-Task Learning	CodeCode Available	0
Tell, Don't Show: Leveraging Language Models' Abstractive Retellings to Model Literary Themes	May 29, 2025		CodeCode Available	0
Generating Diverse Training Samples for Relation Extraction with Large Language Models	May 29, 2025	DiversityIn-Context Learning	—Unverified	0
How Does Response Length Affect Long-Form Factuality	May 29, 2025	FormText Generation	CodeCode Available	0
COBRA: Contextual Bandit Algorithm for Ensuring Truthful Strategic Agents	May 29, 2025	Multi-Armed Bandits	—Unverified	0
Beyond Zero Initialization: Investigating the Impact of Non-Zero Initialization on LoRA Fine-Tuning Dynamics	May 29, 2025	parameter-efficient fine-tuning	CodeCode Available	0
A Reverse Causal Framework to Mitigate Spurious Correlations for Debiasing Scene Graph Generation	May 29, 2025	Graph GenerationScene Graph Generation	—Unverified	0
CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring	May 29, 2025	Red Teaming	—Unverified	0
SenWiCh: Sense-Annotation of Low-Resource Languages for WiC using Hybrid Methods	May 29, 2025	Cross-Lingual TransferMultilingual NLP	—Unverified	0
On-Policy RL with Optimal Reward Baseline	May 29, 2025	Large Language ModelMathematical Reasoning	—Unverified	0
DeepRTE: Pre-trained Attention-based Neural Network for Radiative Tranfer	May 29, 2025	Computational EfficiencyRTE	CodeCode Available	0
The Warmup Dilemma: How Learning Rate Strategies Impact Speech-to-Text Model Convergence	May 29, 2025	Speech-to-Text	—Unverified	0
Generalizability vs. Counterfactual Explainability Trade-Off	May 29, 2025	counterfactualvalid	—Unverified	0
SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models	May 29, 2025		CodeCode Available	0