The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 14651–14700 of 474278 papers

Title	Date	Tasks	Status	Hype
A Large-Scale Real-World Evaluation of LLM-Based Virtual Teaching Assistant	Jun 20, 2025		CodeCode Available	1
On Training-Test (Mis)alignment in Unsupervised Combinatorial Optimization: Observation, Empirical Exploration, and Analysis	Jun 20, 2025	Combinatorial Optimization	CodeCode Available	0
Generalizable Agent Modeling for Agent Collaboration-Competition Adaptation with Multi-Retrieval and Dynamic Generation	Jun 20, 2025	Multi-agent Reinforcement LearningSMAC	CodeCode Available	0
RGBTrack: Fast, Robust Depth-Free 6D Pose Estimation and Tracking	Jun 20, 2025	6D Pose EstimationObject	CodeCode Available	2
From Generality to Mastery: Composer-Style Symbolic Music Generation via Large-Scale Pre-training	Jun 20, 2025	Music GenerationRhythm	CodeCode Available	0
Breaking the Transcription Bottleneck: Fine-tuning ASR Models for Extremely Low-Resource Fieldwork Languages	Jun 20, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Off-Policy Actor-Critic for Adversarial Observation Robustness: Virtual Alternative Training via Symmetric Policy Evaluation	Jun 20, 2025	Reinforcement Learning (RL)	CodeCode Available	0
SAFEx: Analyzing Vulnerabilities of MoE-Based LLMs via Stable Safety-critical Expert Identification	Jun 20, 2025	Mixture-of-ExpertsResponse Generation	—Unverified	0
Compliant Residual DAgger: Improving Real-World Contact-Rich Manipulation with Human Corrections	Jun 20, 2025	Contact-rich Manipulation	—Unverified	0
Dissecting the SWE-Bench Leaderboards: Profiling Submitters and Architectures of LLM- and Agent-Based Repair Systems	Jun 20, 2025	Program Repair	—Unverified	0
The Hitchhiker's Guide to Efficient, End-to-End, and Tight DP Auditing	Jun 20, 2025	Friction	—Unverified	0
Dex1B: Learning with 1B Demonstrations for Dexterous Manipulation	Jun 20, 2025	Diversity	—Unverified	0
CUBA: Controlled Untargeted Backdoor Attack against Deep Neural Networks	Jun 20, 2025	Backdoor Attackbackdoor defense	—Unverified	0
Monocular One-Shot Metric-Depth Alignment for RGB-Based Robot Grasping	Jun 20, 2025	6D Pose Estimation6D Pose Estimation using RGB	—Unverified	0
AnyTraverse: An off-road traversability framework with VLM and human operator in the loop	Jun 20, 2025	Autonomous NavigationZero-Shot Learning	—Unverified	0
Automatic Large Language Models Creation of Interactive Learning Lessons	Jun 20, 2025	Prompt EngineeringRetrieval-augmented Generation	—Unverified	0
DreamCube: 3D Panorama Generation via Multi-plane Synchronization	Jun 20, 2025	Depth EstimationImage Generation	—Unverified	0
Towards Advanced Mathematical Reasoning for LLMs via First-Order Logic Theorem Proving	Jun 20, 2025	Automated Theorem ProvingDiversity	—Unverified	0
The Hidden Cost of an Image: Quantifying the Energy Consumption of AI Image Generation	Jun 20, 2025	Image GenerationQuantization	—Unverified	0
Part^2GS: Part-aware Modeling of Articulated Objects using 3D Gaussian Splatting	Jun 20, 2025	3D Reconstruction	—Unverified	0
Cross-Modal Epileptic Signal Harmonization: Frequency Domain Mapping Quantization for Pre-training a Unified Neurophysiological Transformer	Jun 20, 2025	EEGQuantization	CodeCode Available	0
Episode-specific Fine-tuning for Metric-based Few-shot Learners with Optimization-based Training	Jun 20, 2025	Meta-Learning	CodeCode Available	0
AI's Blind Spots: Geographic Knowledge and Diversity Deficit in Generated Urban Scenario	Jun 20, 2025	DiversityEntity Disambiguation	—Unverified	0
Re-Evaluating Code LLM Benchmarks Under Semantic Mutation	Jun 20, 2025	Sensitivity	—Unverified	0
VeriLocc: End-to-End Cross-Architecture Register Allocation via LLM	Jun 20, 2025	GPU	—Unverified	0
LLM-Generated Feedback Supports Learning If Learners Choose to Use It	Jun 20, 2025	Selection bias	CodeCode Available	0
TextBraTS: Text-Guided Volumetric Brain Tumor Segmentation with Innovative Dataset Development and Fusion Module Exploration	Jun 20, 2025	Brain Tumor SegmentationImage Segmentation	CodeCode Available	1
A Comparative Analysis of Principal Component Analysis (PCA) and Singular Value Decomposition (SVD) as Dimensionality Reduction Techniques	Jun 20, 2025	BenchmarkingDimensionality Reduction	—Unverified	0
Prmpt2Adpt: Prompt-Based Zero-Shot Domain Adaptation for Resource-Constrained Environments	Jun 20, 2025	Domain AdaptationUnsupervised Domain Adaptation	—Unverified	0
UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation	Jun 20, 2025	Representation Learning	CodeCode Available	1
Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition	Jun 20, 2025	Temporal SequencesVideo Generation	—Unverified	0
A Simple Contrastive Framework Of Item Tokenization For Generative Recommendation	Jun 20, 2025	Contrastive LearningDescriptive	—Unverified	0
Cross-Modal Obfuscation for Jailbreak Attacks on Large Vision-Language Models	Jun 20, 2025	Computational Efficiency	—Unverified	0
Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens	Jun 20, 2025	Image GenerationMultimodal Reasoning	CodeCode Available	3
Sparse-Reg: Improving Sample Complexity in Offline Reinforcement Learning using Sparsity	Jun 20, 2025	continuous-controlContinuous Control	CodeCode Available	0
Cache Me If You Can: How Many KVs Do You Need for Effective Long-Context LMs?	Jun 20, 2025	Book summarizationLong-Context Understanding	CodeCode Available	1
Universal Music Representations? Evaluating Foundation Models on World Music Corpora	Jun 20, 2025	BenchmarkingFew-Shot Learning	CodeCode Available	0
Adaptive Control Attention Network for Underwater Acoustic Localization and Domain Adaptation	Jun 20, 2025	Domain Adaptation	—Unverified	0
Visual-Instructed Degradation Diffusion for All-in-One Image Restoration	Jun 20, 2025	AllDeblurring	CodeCode Available	1
TeXpert: A Multi-Level Benchmark for Evaluating LaTeX Code Generation by LLMs	Jun 20, 2025	Code Generation	CodeCode Available	1
VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning	Jun 20, 2025	NavigateVision-Language Navigation	CodeCode Available	4
A Neural Operator based Hybrid Microscale Model for Multiscale Simulation of Rate-Dependent Materials	Jun 20, 2025		CodeCode Available	0
No Free Lunch: Rethinking Internal Feedback for LLM Reasoning	Jun 20, 2025	Mathreinforcement-learning	—Unverified	0
TabArena: A Living Benchmark for Machine Learning on Tabular Data	Jun 20, 2025	Benchmarking	CodeCode Available	3
SMART HEALTHCARE PREDICTION MANAGEMENT SYSTEM PROJECT.	Jun 20, 2025	ManagementPrediction	—Unverified	0
Explainable Rule Application via Structured Prompting: A Neural-Symbolic Approach	Jun 19, 2025		—Unverified	0
One Period to Rule Them All: Identifying Critical Learning Periods in Deep Networks	Jun 19, 2025		CodeCode Available	0
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning	Jun 19, 2025	Multimodal Reasoningreinforcement-learning	—Unverified	0
One Sample is Enough to Make Conformal Prediction Robust	Jun 19, 2025	Conformal PredictionPrediction	—Unverified	0
R3eVision: A Survey on Robust Rendering, Restoration, and Enhancement for 3D Low-Level Vision	Jun 19, 2025	3DGS3D Reconstruction	CodeCode Available	1