The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15951–16000 of 474278 papers

Title	Date	Tasks	Status	Hype
M4-SAR: A Multi-Resolution, Multi-Polarization, Multi-Scene, Multi-Source Dataset and Benchmark for Optical-SAR Fusion Object Detection	May 16, 2025	Benchmarkingobject-detection	CodeCode Available	1
Talk to Your Slides: Language-Driven Agents for Efficient Slide Editing	May 16, 2025		CodeCode Available	1
Ranked Voting based Self-Consistency of Large Language Models	May 16, 2025	Multiple-choiceOpen-Ended Question Answering	CodeCode Available	1
MOSAIK: Multi-Origin Spatial Transcriptomics Analysis and Integration Kit	May 16, 2025		CodeCode Available	1
The Future is Sparse: Embedding Compression for Scalable Retrieval in Recommender Systems	May 16, 2025	Recommendation SystemsRetrieval	CodeCode Available	1
Flash Invariant Point Attention	May 16, 2025	GPU	CodeCode Available	1
PoE-World: Compositional World Modeling with Products of Programmatic Experts	May 16, 2025	Montezuma's RevengeProgram Synthesis	CodeCode Available	1
MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports	May 16, 2025	DiagnosticMath	CodeCode Available	1
DecompileBench: A Comprehensive Benchmark for Evaluating Decompilers in Real-World Scenarios	May 16, 2025	Malware Analysis	CodeCode Available	1
One Image is Worth a Thousand Words: A Usability Preservable Text-Image Collaborative Erasing Framework	May 16, 2025	AttributeImage Generation	CodeCode Available	1
Learning Dense Hand Contact Estimation from Imbalanced Data	May 16, 2025	Contact DetectionDense contact estimation	CodeCode Available	1
Modeling Cell Dynamics and Interactions with Unbalanced Mean Field Schrödinger Bridge	May 16, 2025		CodeCode Available	1
BLEUBERI: BLEU is a surprisingly effective reward for instruction following	May 16, 2025	Instruction FollowingSynthetic Data Generation	CodeCode Available	1
RAGSynth: Synthetic Data for Robust and Faithful RAG Component Optimization	May 16, 2025	RAGSynthetic Data Generation	CodeCode Available	1
mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs	May 16, 2025	Information RetrievalKnowledge Graphs	CodeCode Available	1
EA-3DGS: Efficient and Adaptive 3D Gaussians with Highly Enhanced Quality for outdoor scenes	May 16, 2025	3DGSNeRF	CodeCode Available	1
Physics-informed Temporal Alignment for Auto-regressive PDE Foundation Models	May 16, 2025	Self-Supervised Learning	CodeCode Available	1
GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing	May 16, 2025	Instruction FollowingMultiple-choice	CodeCode Available	1
FP64 is All You Need: Rethinking Failure Modes in Physics-Informed Neural Networks	May 16, 2025	All	CodeCode Available	1
Accurate KV Cache Quantization with Outlier Tokens Tracing	May 16, 2025	Quantization	CodeCode Available	1
Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory	May 16, 2025		CodeCode Available	1
PoseBench3D: A Cross-Dataset Analysis Framework for 3D Human Pose Estimation	May 16, 2025	3D Human Pose EstimationPose Estimation	CodeCode Available	1
MatTools: Benchmarking Large Language Models for Materials Science Tools	May 16, 2025	BenchmarkingQuestion Answering	CodeCode Available	1
Reasoning on a Budget: Miniaturizing DeepSeek R1 with SFT-GRPO Alignment for Instruction-Tuned LLMs	May 16, 2025	Deep Reinforcement LearningMathematical Reasoning	CodeCode Available	1
Unifying Segment Anything in Microscopy with Multimodal Large Language Model	May 16, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Diffusion-NPO: Negative Preference Optimization for Better Preference Aligned Generation of Diffusion Models	May 16, 2025	Image Generation	CodeCode Available	1
Massive-STEPS: Massive Semantic Trajectories for Understanding POI Check-ins -- Dataset and Benchmarks	May 16, 2025	Benchmarking	CodeCode Available	1
AutoRAN: Weak-to-Strong Jailbreaking of Large Reasoning Models	May 16, 2025		CodeCode Available	1
ImagineBench: Evaluating Reinforcement Learning with Large Language Model Rollouts	May 15, 2025	Continual LearningLanguage Modeling	CodeCode Available	1
An Introduction to Discrete Variational Autoencoders	May 15, 2025	Decoder	CodeCode Available	1
MFogHub: Bridging Multi-Regional and Multi-Satellite Data for Global Marine Fog Detection and Forecasting	May 15, 2025		CodeCode Available	1
Multi-Token Prediction Needs Registers	May 15, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
ADHMR: Aligning Diffusion-based Human Mesh Recovery via Direct Preference Optimization	May 15, 2025	Human Mesh Recovery	CodeCode Available	1
LLM-Explorer: Towards Efficient and Affordable LLM-based Exploration for Mobile Apps	May 15, 2025	Action Generation	CodeCode Available	1
Evaluating Robustness of Deep Reinforcement Learning for Autonomous Surface Vehicle Control in Field Tests	May 15, 2025	BenchmarkingDeep Reinforcement Learning	CodeCode Available	1
Large Wireless Localization Model (LWLM): A Foundation Model for Positioning in 6G Networks	May 15, 2025	Autonomous DrivingContrastive Learning	CodeCode Available	1
Learned Lightweight Smartphone ISP with Unpaired Data	May 15, 2025		CodeCode Available	1
PIG: Privacy Jailbreak Attack on LLMs via Gradient-based Iterative In-Context Optimization	May 15, 2025	In-Context Learning	CodeCode Available	1
Rethinking Repetition Problems of LLMs in Code Generation	May 15, 2025	Code GenerationHumanEval	CodeCode Available	1
Seasonal Forecasting of Pan-Arctic Sea Ice with State Space Model	May 15, 2025	Deep Learning	CodeCode Available	1
SpikeVideoFormer: An Efficient Spike-Driven Video Transformer with Hamming Attention and O(T) Complexity	May 15, 2025	Pose TrackingSemantic Segmentation	CodeCode Available	1
MIPHEI-ViT: Multiplex Immunofluorescence Prediction from H&E Images using ViT Foundation Models	May 15, 2025	Image-to-Image TranslationMedical Image Analysis	CodeCode Available	1
HWA-UNETR: Hierarchical Window Aggregate UNETR for 3D Multimodal Gastric Lesion Segmentation	May 15, 2025	Image SegmentationLesion Segmentation	CodeCode Available	1
Consistent Quantity-Quality Control across Scenes for Deployment-Aware Gaussian Splatting	May 15, 2025	3DGSModel Compression	CodeCode Available	1
From Questions to Clinical Recommendations: Large Language Models Driving Evidence-Based Clinical Decision Making	May 15, 2025	Decision Making	CodeCode Available	1
MSCI: Addressing CLIP's Inherent Limitations for Compositional Zero-Shot Learning	May 15, 2025	Compositional Zero-Shot Learningcross-modal alignment	CodeCode Available	1
A Hybrid Strategy for Aggregated Probabilistic Forecasting and Energy Trading in HEFTCom2024	May 15, 2025	energy trading	CodeCode Available	1
Rethinking Prompt Optimizers: From Prompt Merits to Optimization	May 15, 2025		CodeCode Available	1
Hierarchical Document Refinement for Long-context Retrieval-augmented Generation	May 15, 2025	Multi-Task LearningRAG	CodeCode Available	1
StoryReasoning Dataset: Using Chain-of-Thought for Scene Understanding and Grounded Story Generation	May 15, 2025	Face RecognitionObject	CodeCode Available	1