The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 13601–13650 of 474278 papers

Title	Date	Tasks	Status	Hype
ARAG: Agentic Retrieval Augmented Generation for Personalized Recommendation	Jun 27, 2025	Large Language ModelNatural Language Inference	—Unverified	0
Embodied AI Agents: Modeling the World	Jun 27, 2025	Human Agent Collaboration	—Unverified	0
PapersPlease: A Benchmark for Evaluating Motivational Values of Large Language Models Based on ERG Theory	Jun 27, 2025	Decision Making	CodeCode Available	0
Binned semiparametric Bayesian networks	Jun 27, 2025	Density Estimation	CodeCode Available	0
JointRank: Rank Large Set with Single Pass	Jun 27, 2025	Information RetrievalReranking	CodeCode Available	0
RetFiner: A Vision-Language Refinement Scheme for Retinal Foundation Models	Jun 27, 2025	Self-Supervised Learning	CodeCode Available	0
Hitchhiking Rides Dataset: Two decades of crowd-sourced records on stochastic traveling	Jun 27, 2025		CodeCode Available	0
RExBench: Can coding agents autonomously implement AI research extensions?	Jun 27, 2025		CodeCode Available	0
Layer Importance for Mathematical Reasoning is Forged in Pre-Training and Invariant after Post-Training	Jun 27, 2025	Knowledge DistillationMathematical Reasoning	—Unverified	0
Score-Based Model for Low-Rank Tensor Recovery	Jun 27, 2025	Denoising	—Unverified	0
Interact2Vec -- An efficient neural network-based model for simultaneously learning users and items embeddings in recommender systems	Jun 27, 2025	Efficient Neural NetworkRecommendation Systems	—Unverified	0
Exploring Modularity of Agentic Systems for Drug Discovery	Jun 27, 2025	Drug Discovery	—Unverified	0
LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs	Jun 27, 2025	Question AnsweringVideo Question Answering	CodeCode Available	2
UnMix-NeRF: Spectral Unmixing Meets Neural Radiance Fields	Jun 27, 2025	Hyperspectral UnmixingMaterial Segmentation	CodeCode Available	1
Seg-R1: Segmentation Can Be Surprisingly Simple with Reinforcement Learning	Jun 27, 2025	Foreground Segmentationobject-detection	CodeCode Available	2
MolProphecy: Bridging Medicinal Chemists' Knowledge and Molecular Pre-Trained Models via a Multi-Modal Framework	Jun 26, 2025		CodeCode Available	0
FreeDNA: Endowing Domain Adaptation of Diffusion-Based Dense Prediction with Training-Free Domain Noise Alignment	Jun 26, 2025		CodeCode Available	0
APO: Enhancing Reasoning Ability of MLLMs via Asymmetric Policy Optimization	Jun 26, 2025	Multimodal ReasoningReinforcement Learning (RL)	CodeCode Available	0
Estimating Correctness Without Oracles in LLM-Based Code Generation	Jun 26, 2025	Code Generation	CodeCode Available	0
Large Language Model Agent for Modular Task Execution in Drug Discovery	Jun 26, 2025	Drug DiscoveryLanguage Modeling	—Unverified	0
BMFM-DNA: A SNP-aware DNA foundation model to capture variant effects	Jun 26, 2025	ImputationPromoter Detection	CodeCode Available	2
Elucidating and Endowing the Diffusion Training Paradigm for General Image Restoration	Jun 26, 2025	Image Restoration	—Unverified	0
Adaptive Multipath-Based SLAM for Distributed MIMO Systems	Jun 26, 2025	Simultaneous Localization and Mapping	—Unverified	0
ImplicitQA: Going beyond frames towards Implicit Video Reasoning	Jun 26, 2025	Spatial Reasoning	CodeCode Available	0
CAT-SG: A Large Dynamic Scene Graph Dataset for Fine-Grained Understanding of Cataract Surgery	Jun 26, 2025	Graph GenerationScene Graph Generation	—Unverified	0
Towards Transparent AI: A Survey on Explainable Large Language Models	Jun 26, 2025	DecoderExplainable artificial intelligence	—Unverified	0
Early Stopping Tabular In-Context Learning	Jun 26, 2025	DecoderIn-Context Learning	—Unverified	0
AgentStealth: Reinforcing Large Language Model for Anonymizing User-generated Text	Jun 26, 2025	Contrastive LearningLanguage Modeling	CodeCode Available	0
Interpretable Representation Learning for Additive Rule Ensembles	Jun 26, 2025	Representation Learning	—Unverified	0
FeDa4Fair: Client-Level Federated Datasets for Fairness Evaluation	Jun 26, 2025	AttributeBenchmarking	—Unverified	0
Interpretable Hierarchical Concept Reasoning through Attention-Guided Graph Learning	Jun 26, 2025	Graph Learning	—Unverified	0
Progtuning: Progressive Fine-tuning Framework for Transformer-based Language Models	Jun 26, 2025	parameter-efficient fine-tuning	—Unverified	0
Robust Policy Switching for Antifragile Reinforcement Learning for UAV Deconfliction in Adversarial Environments	Jun 26, 2025	Reinforcement Learning (RL)Thompson Sampling	—Unverified	0
Curriculum-Guided Antifragile Reinforcement Learning for Secure UAV Deconfliction under Observation-Space Attacks	Jun 26, 2025	Decision MakingReinforcement Learning (RL)	—Unverified	0
Temporal-Aware Graph Attention Network for Cryptocurrency Transaction Fraud Detection	Jun 26, 2025	Anomaly DetectionFeature Engineering	—Unverified	0
Optimising 4th-Order Runge-Kutta Methods: A Dynamic Heuristic Approach for Efficiency and Low Storage	Jun 26, 2025	AutoMLComputational Efficiency	—Unverified	0
Potemkin Understanding in Large Language Models	Jun 26, 2025	valid	—Unverified	0
Can Gradient Descent Simulate Prompting?	Jun 26, 2025	Meta-Learning	—Unverified	0
MT2-CSD: A New Dataset and Multi-Semantic Knowledge Fusion Method for Conversational Stance Detection	Jun 26, 2025	Large Language ModelOpinion Mining	—Unverified	0
DALR: Dual-level Alignment Learning for Multimodal Sentence Representation Learning	Jun 26, 2025	cross-modal alignmentRepresentation Learning	—Unverified	0
Cat and Mouse -- Can Fake Text Generation Outpace Detector Systems?	Jun 26, 2025	Text Generation	—Unverified	0
Double-Checker: Enhancing Reasoning of Slow-Thinking LLMs via Self-Critical Fine-Tuning	Jun 26, 2025		—Unverified	0
Bridging Offline and Online Reinforcement Learning for LLMs	Jun 26, 2025	Instruction FollowingMath	—Unverified	0
Explainable AI for Radar Resource Management: Modified LIME in Deep Reinforcement Learning	Jun 26, 2025	Decision MakingDeep Reinforcement Learning	—Unverified	0
Data Efficacy for Language Model Training	Jun 26, 2025	Language ModelingLanguage Modelling	—Unverified	0
TRIDENT: Tri-Modal Molecular Representation Learning with Taxonomic Annotations and Local Correspondence	Jun 26, 2025	Molecular Property Predictionmolecular representation	—Unverified	0
Little By Little: Continual Learning via Self-Activated Sparse Mixture-of-Rank Adaptive Learning	Jun 26, 2025	Continual LearningMixture-of-Experts	—Unverified	0
FedDAA: Dynamic Client Clustering for Concept Drift Adaptation in Federated Learning	Jun 26, 2025	Drift DetectionFederated Learning	—Unverified	0
Generative Adversarial Evasion and Out-of-Distribution Detection for UAV Cyber-Attacks	Jun 26, 2025	Anomaly DetectionGenerative Adversarial Network	—Unverified	0
Diverse Mini-Batch Selection in Reinforcement Learning for Efficient Chemical Exploration in de novo Drug Design	Jun 26, 2025	Drug DesignDrug Discovery	—Unverified	0