The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 16201–16250 of 474278 papers

Title	Date	Tasks	Status	Hype
VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding	May 2, 2025	Anomaly DetectionCommon Sense Reasoning	CodeCode Available	1
CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment	May 2, 2025	audio-visual learningcross-modal alignment	CodeCode Available	1
SpectrumFM: A Foundation Model for Intelligent Spectrum Management	May 2, 2025	Anomaly DetectionFew-Shot Learning	CodeCode Available	1
CDFormer: Cross-Domain Few-Shot Object Detection Transformer Against Feature Confusion	May 2, 2025	Cross-Domain Few-ShotCross-Domain Few-Shot Object Detection	CodeCode Available	1
TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action	May 2, 2025	Dense CaptioningHighlight Detection	CodeCode Available	1
SymPlanner: Deliberate Planning in Language Models with Symbolic Representation	May 2, 2025	valid	CodeCode Available	1
Differentiable Nonlinear Model Predictive Control	May 2, 2025	modelModel Predictive Control	CodeCode Available	1
OET: Optimization-based prompt injection Evaluation Toolkit	May 1, 2025	Adversarial RobustnessNatural Language Understanding	CodeCode Available	1
Adapting Precomputed Features for Efficient Graph Condensation	May 1, 2025	Diversity	CodeCode Available	1
Multimodal Masked Autoencoder Pre-training for 3D MRI-Based Brain Tumor Analysis with Missing Modalities	May 1, 2025		CodeCode Available	1
Future-Oriented Navigation: Dynamic Obstacle Avoidance with One-Shot Energy-Based Multimodal Motion Prediction	May 1, 2025	Model Predictive ControlMotion Planning	CodeCode Available	1
TeLoGraF: Temporal Logic Planning via Graph-encoded Flow Matching	May 1, 2025		CodeCode Available	1
NeMo-Inspector: A Visualization Tool for LLM Generation Analysis	May 1, 2025	GSM8KMath	CodeCode Available	1
Fast and Low-Cost Genomic Foundation Models via Outlier Removal	May 1, 2025	Adversarial AttackAdversarial Robustness	CodeCode Available	1
LENSLLM: Unveiling Fine-Tuning Dynamics for LLM Selection	May 1, 2025	Computational EfficiencyModel Selection	CodeCode Available	1
Mixture of Sparse Attention: Content-Based Learnable Sparse Attention via Expert-Choice Routing	May 1, 2025	Mixture-of-Experts	CodeCode Available	1
Visual Test-time Scaling for GUI Agent Grounding	May 1, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Towards Scalable Human-aligned Benchmark for Text-guided Image Editing	May 1, 2025	text-guided-image-editing	CodeCode Available	1
Gateformer: Advancing Multivariate Time Series Forecasting through Temporal and Variate-Wise Attention with Gated Representations	May 1, 2025	Multivariate Time Series ForecastingTime Series	CodeCode Available	1
DeepCritic: Deliberate Critique with Large Language Models	May 1, 2025	Math	CodeCode Available	1
Pinching-Antenna Systems (PASS): Power Radiation Model and Optimal Beamforming Design	Apr 30, 2025		CodeCode Available	1
LLM-Empowered Embodied Agent for Memory-Augmented Task Planning in Household Robotics	Apr 30, 2025	In-Context LearningObject	CodeCode Available	1
GEOM-Drugs Revisited: Toward More Chemically Accurate Benchmarks for 3D Molecule Generation	Apr 30, 2025	3D Molecule GenerationBenchmarking	CodeCode Available	1
Real Time Semantic Segmentation of High Resolution Automotive LiDAR Scans	Apr 30, 2025	Autonomous VehiclesReal-Time Semantic Segmentation	CodeCode Available	1
UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation	Apr 30, 2025	DiagnosticLarge Language Model	CodeCode Available	1
Embracing Collaboration Over Competition: Condensing Multiple Prompts for Visual In-Context Learning	Apr 30, 2025	Computational EfficiencyIn-Context Learning	CodeCode Available	1
Is Intermediate Fusion All You Need for UAV-based Collaborative Perception?	Apr 30, 2025	All	CodeCode Available	1
MF-LLM: Simulating Population Decision Dynamics via a Mean-Field Large Language Model Framework	Apr 30, 2025	Decision MakingLanguage Modeling	CodeCode Available	1
A Survey on 3D Reconstruction Techniques in Plant Phenotyping: From Classical Methods to Neural Radiance Fields (NeRF), 3D Gaussian Splatting (3DGS), and Beyond	Apr 30, 2025	3DGS3D Reconstruction	CodeCode Available	1
Recursive KL Divergence Optimization: A Dynamic Framework for Representation Learning	Apr 30, 2025	Contrastive LearningDimensionality Reduction	CodeCode Available	1
Antidote: A Unified Framework for Mitigating LVLM Hallucinations in Counterfactual Presupposition and Object Perception	Apr 29, 2025	counterfactualHallucination	CodeCode Available	1
Towards Understanding the Nature of Attention with Low-Rank Sparse Decomposition	Apr 29, 2025	Dictionary Learning	CodeCode Available	1
Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding	Apr 29, 2025	Code GenerationDensity Estimation	CodeCode Available	1
DRO: Doppler-Aware Direct Radar Odometry	Apr 29, 2025	Radar odometry	CodeCode Available	1
OG-HFYOLO :Orientation gradient guidance and heterogeneous feature fusion for deformation table cell instance segmentation	Apr 29, 2025	Instance SegmentationSemantic Segmentation	CodeCode Available	1
ClusterLOB: Enhancing Trading Strategies by Clustering Orders in Limit Order Books	Apr 29, 2025	Algorithmic TradingClustering	CodeCode Available	1
End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation	Apr 29, 2025	Audio Deepfake DetectionDeepFake Detection	CodeCode Available	1
TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks	Apr 29, 2025	BenchmarkingMisinformation	CodeCode Available	1
ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification	Apr 29, 2025	DiagnosticQuestion Answering	CodeCode Available	1
EchoNet-Quality: Denoising Echocardiograms via Deep Generative Modeling of Ultrasound Noise	Apr 29, 2025	DenoisingDiagnostic	CodeCode Available	1
Automatic Legal Writing Evaluation of LLMs	Apr 29, 2025		CodeCode Available	1
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security	Apr 29, 2025		CodeCode Available	1
OSVBench: Benchmarking LLMs on Specification Generation Tasks for Operating System Verification	Apr 29, 2025	BenchmarkingCode Generation	CodeCode Available	1
PhenoAssistant: A Conversational Multi-Agent AI System for Automated Plant Phenotyping	Apr 28, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
PhyloProfile v2 -- Exploring multi-layered phylogenetic profiles at scale	Apr 28, 2025	Dimensionality Reduction	CodeCode Available	1
Mesh-Learner: Texturing Mesh with Spherical Harmonics	Apr 28, 2025	3D ReconstructionCPU	CodeCode Available	1
Taming the Titans: A Survey of Efficient LLM Inference Serving	Apr 28, 2025	GPUMiscellaneous	CodeCode Available	1
TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering	Apr 28, 2025	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	1
UNet with Axial Transformer : A Neural Weather Model for Precipitation Nowcasting	Apr 28, 2025	SSIMTime Series	CodeCode Available	1
DISCO: learning to DISCover an evolution Operator for multi-physics-agnostic prediction	Apr 28, 2025		CodeCode Available	1