The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15551–15600 of 474278 papers

Title	Date	Tasks	Status	Hype
Large Language Models as Autonomous Spacecraft Operators in Kerbal Space Program	May 26, 2025	Prompt Engineering	CodeCode Available	1
ReasonPlan: Unified Scene Prediction and Decision Reasoning for Closed-loop Autonomous Driving	May 26, 2025	Autonomous DrivingBench2Drive	CodeCode Available	1
Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression	May 26, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
LangDAug: Langevin Data Augmentation for Multi-Source Domain Generalization in Medical Image Segmentation	May 26, 2025	Data AugmentationDomain Generalization	CodeCode Available	1
Concise Reasoning, Big Gains: Pruning Long Reasoning Trace with Difficulty-Aware Prompting	May 26, 2025		CodeCode Available	1
Visual Abstract Thinking Empowers Multimodal Reasoning	May 26, 2025	Multimodal ReasoningRelational Reasoning	CodeCode Available	1
Visualized Text-to-Image Retrieval	May 26, 2025	Image RetrievalQuestion Answering	CodeCode Available	1
TailorKV: A Hybrid Framework for Long-Context Inference via Tailored KV Cache Optimization	May 26, 2025	CPUGPU	CodeCode Available	1
MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research	May 26, 2025	scientific discovery	CodeCode Available	1
Benchmarking Multimodal Knowledge Conflict for Large Multimodal Models	May 26, 2025	BenchmarkingRAG	CodeCode Available	1
SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents	May 26, 2025	Code Generation	CodeCode Available	1
Compliance-to-Code: Enhancing Financial Compliance Checking via Code Generation	May 26, 2025	Code Generation	CodeCode Available	1
DriveCamSim: Generalizable Camera Simulation via Explicit Camera Modeling for Autonomous Driving	May 26, 2025	Autonomous DrivingVideo Generation	CodeCode Available	1
Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion	May 26, 2025	DenoisingImage Generation	CodeCode Available	1
NeuSym-RAG: Hybrid Neural Symbolic Retrieval with Multiview Structuring for PDF Question Answering	May 26, 2025	ChunkingLarge Language Model	CodeCode Available	1
A Regularization-Guided Equivariant Approach for Image Restoration	May 26, 2025	Data AugmentationImage Restoration	CodeCode Available	1
Towards Video to Piano Music Generation with Chain-of-Perform Support Benchmarks	May 26, 2025	Music Generation	CodeCode Available	1
MiniLongBench: The Low-cost Long Context Understanding Benchmark for Large Language Models	May 26, 2025	Data CompressionLong-Context Understanding	CodeCode Available	1
SMART-PC: Skeletal Model Adaptation for Robust Test-Time Training in Point Clouds	May 26, 2025	3D Point Cloud ClassificationComputational Efficiency	CodeCode Available	1
Unlocking the Power of Diffusion Models in Sequential Recommendation: A Simple and Effective Approach	May 26, 2025	DenoisingRecommendation Systems	CodeCode Available	1
Data-Free Class-Incremental Gesture Recognition with Prototype-Guided Pseudo Feature Replay	May 26, 2025	Gesture Recognition	CodeCode Available	1
Navigating PESQ: Up-to-Date Versions and Open Implementations	May 26, 2025		CodeCode Available	1
Ctrl-DNA: Controllable Cell-Type-Specific Regulatory DNA Design via Constrained RL	May 26, 2025	Reinforcement Learning (RL)Specificity	CodeCode Available	1
A Semantic Change Detection Network Based on Boundary Detection and Task Interaction for High-Resolution Remote Sensing Images	May 26, 2025	Boundary DetectionChange Detection	CodeCode Available	1
Locality-Aware Zero-Shot Human-Object Interaction Detection	May 26, 2025	Human-Object Interaction DetectionObject	CodeCode Available	1
FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation	May 26, 2025		CodeCode Available	1
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs	May 26, 2025	ArticlesFew-Shot Learning	CodeCode Available	1
The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants	May 26, 2025	ClusteringOut-of-Distribution Generalization	CodeCode Available	1
From What to How: Attributing CLIP's Latent Components Reveals Unexpected Semantic Reliance	May 26, 2025	Lesion Detection	CodeCode Available	1
Task Memory Engine: Spatial Memory for Robust Multi-Step LLM Agents	May 26, 2025	Scheduling	CodeCode Available	1
Rotation-Equivariant Self-Supervised Method in Image Denoising	May 26, 2025	DenoisingImage Denoising	CodeCode Available	1
Rethinking Text-based Protein Understanding: Retrieval or LLM?	May 26, 2025	RetrievalText Generation	CodeCode Available	1
ReaMOT: A Benchmark and Framework for Reasoning-based Multi-Object Tracking	May 26, 2025	Multi-Object TrackingObject	CodeCode Available	1
Temporal Sampling for Forgotten Reasoning in LLMs	May 26, 2025		CodeCode Available	1
Exploring Consciousness in LLMs: A Systematic Survey of Theories, Implementations, and Frontier Risks	May 26, 2025		CodeCode Available	1
R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning	May 26, 2025	HallucinationRAG	CodeCode Available	1
Towards Multi-Granularity Memory Association and Selection for Long-Term Conversational Agents	May 26, 2025	Retrieval	CodeCode Available	1
Hierarchical Masked Autoregressive Models with Low-Resolution Token Pivots	May 26, 2025	Image GenerationText to Image Generation	CodeCode Available	1
Mel-McNet: A Mel-Scale Framework for Online Multichannel Speech Enhancement	May 26, 2025	Speech Enhancement	CodeCode Available	1
MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding	May 26, 2025	Question AnsweringVisual Question Answering	CodeCode Available	1
OpenNIRScap: An Open-Source, Low-Cost Wearable Near-Infrared Spectroscopy-based Brain Interfacing Cap	May 26, 2025		CodeCode Available	1
HAODiff: Human-Aware One-Step Diffusion via Dual-Prompt Guidance	May 26, 2025		CodeCode Available	1
ReChisel: Effective Automatic Chisel Code Generation by LLM with Reflection	May 26, 2025	Code Generation	CodeCode Available	1
Modality Curation: Building Universal Embeddings for Advanced Multimodal Information Retrieval	May 26, 2025	Contrastive Learningcross-modal alignment	CodeCode Available	1
Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought	May 26, 2025	Anomaly DetectionVideo Anomaly Detection	CodeCode Available	1
FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models	May 26, 2025	Mixture-of-Experts	CodeCode Available	1
VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation	May 26, 2025		CodeCode Available	1
Decoupling Spatio-Temporal Prediction: When Lightweight Large Models Meet Adaptive Hypergraphs	May 26, 2025	Computational EfficiencyScheduling	CodeCode Available	1
MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents	May 26, 2025	BenchmarkingMinecraft	CodeCode Available	1
ParticleGS: Particle-Based Dynamics Modeling of 3D Gaussians for Prior-free Motion Extrapolation	May 26, 2025	3D Reconstruction	CodeCode Available	1