The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

661,570 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5251–5275 of 177340 papers

Title	Date	Tasks	Status	Hype	Score
Unifying Unsupervised Graph-Level Anomaly Detection and Out-of-Distribution Detection: A Benchmark	Jun 21, 2024	Anomaly DetectionOut-of-Distribution Detection	CodeCode Available	2	5
Dilated Neighborhood Attention Transformer	Sep 29, 2022	Image ClassificationInstance Segmentation	CodeCode Available	2	5
UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models	Jun 27, 2024	AttributeBenchmarking	CodeCode Available	2	5
SEAL: Steerable Reasoning Calibration of Large Language Models for Free	Apr 7, 2025	GSM8K	CodeCode Available	2	5
LightGNN: Simple Graph Neural Network for Recommendation	Jan 6, 2025	Computational EfficiencyGraph Neural Network	CodeCode Available	2	5
Edicho: Consistent Image Editing in the Wild	Dec 30, 2024	Denoising	CodeCode Available	2	5
SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model	Jan 28, 2025	BenchmarkingLanguage Modeling	CodeCode Available	2	5
Real-Time Fitness Exercise Classification and Counting from Video Frames	Nov 18, 2024		CodeCode Available	2	5
What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning	Dec 25, 2023		CodeCode Available	2	5
Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization	Dec 23, 2024	Position	CodeCode Available	2	5
RESDSQL: Decoupling Schema Linking and Skeleton Parsing for Text-to-SQL	Feb 12, 2023	DecoderLanguage Modeling	CodeCode Available	2	5
FinBERT-QA: Financial Question Answering with pre-trained BERT Language Models	Apr 24, 2025	Answer SelectionInformation Retrieval	CodeCode Available	2	5
Iterative Methods for Vecchia-Laplace Approximations for Latent Gaussian Process Models	Oct 18, 2023		CodeCode Available	2	5
LitSearch: A Retrieval Benchmark for Scientific Literature Search	Jul 10, 2024	ArticlesReranking	CodeCode Available	2	5
xPatch: Dual-Stream Time Series Forecasting with Exponential Seasonal-Trend Decomposition	Dec 23, 2024	Multivariate Time Series ForecastingTime Series	CodeCode Available	2	5
Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models	Nov 3, 2022	GPU	CodeCode Available	2	5
Auto-Encoded Supervision for Perceptual Image Super-Resolution	Nov 28, 2024	Image Super-ResolutionSuper-Resolution	CodeCode Available	2	5
VE-Bench: Subjective-Aligned Benchmark Suite for Text-Driven Video Editing Quality Assessment	Aug 21, 2024	Video AlignmentVideo Editing	CodeCode Available	2	5
Learning Spatio-Temporal Dynamics for Trajectory Recovery via Time-Aware Transformer	May 20, 2025	Trajectory Recovery	CodeCode Available	2	5
JL1-CD: A New Benchmark for Remote Sensing Change Detection and a Robust Multi-Teacher Knowledge Distillation Framework	Feb 19, 2025	Change DetectionEarth Observation	CodeCode Available	2	5
Squeezed Attention: Accelerating Long Context Length LLM Inference	Nov 14, 2024	Code GenerationLarge Language Model	CodeCode Available	2	5
FAdam: Adam is a natural gradient optimizer using diagonal empirical Fisher information	May 21, 2024	Speech Recognition	CodeCode Available	2	5
Adaptive Dual-domain Learning for Underwater Image Enhancement	Apr 27, 2025	Image EnhancementUIE	CodeCode Available	2	5
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models	Mar 8, 2023	Open Vocabulary Panoptic SegmentationOpen Vocabulary Semantic Segmentation	CodeCode Available	2	5
FATE-LLM: A Industrial Grade Federated Learning Framework for Large Language Models	Oct 16, 2023	Federated Learningparameter-efficient fine-tuning	CodeCode Available	2	5