The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15851–15900 of 474278 papers

Title	Date	Tasks	Status	Hype
Dynadiff: Single-stage Decoding of Images from Continuously Evolving fMRI	May 20, 2025	Image Reconstruction	CodeCode Available	1
EEG-to-Text Translation: A Model for Deciphering Human Brain Activity	May 20, 2025	DecoderEEG	CodeCode Available	1
Learning Concept-Driven Logical Rules for Interpretable and Generalizable Medical Image Classification	May 20, 2025	image-classificationImage Classification	CodeCode Available	1
Safety Subspaces are Not Distinct: A Fine-Tuning Case Study	May 20, 2025	Safety Alignment	CodeCode Available	1
MGStream: Motion-aware 3D Gaussian for Streamable Dynamic Scene Reconstruction	May 20, 2025	3DGSComputational Efficiency	CodeCode Available	1
Enhancing Classification with Semi-Supervised Deep Learning Using Distance-Based Sample Weights	May 20, 2025		CodeCode Available	1
Time series saliency maps: explaining models across multiple domains	May 19, 2025	Explainable Artificial Intelligence (XAI)Interpretability Techniques for Deep Learning	CodeCode Available	1
Cross-modal feature fusion for robust point cloud registration with ambiguous geometry	May 19, 2025	Point Cloud Registration	CodeCode Available	1
Accelerate TarFlow Sampling with GS-Jacobi Iteration	May 19, 2025	Image Generation	CodeCode Available	1
TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios	May 19, 2025		CodeCode Available	1
One-Step Offline Distillation of Diffusion-based Models via Koopman Modeling	May 19, 2025	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1
Occult: Optimizing Collaborative Communication across Experts for Accelerated Parallel MoE Training and Inference	May 19, 2025	Computational EfficiencyMixture-of-Experts	CodeCode Available	1
Predicting Turn-Taking and Backchannel in Human-Machine Conversations Using Linguistic, Acoustic, and Visual Signals	May 19, 2025		CodeCode Available	1
VTBench: Evaluating Visual Tokenizers for Autoregressive Image Generation	May 19, 2025	Image GenerationImage Reconstruction	CodeCode Available	1
WriteViT: Handwritten Text Generation with Vision Transformer	May 19, 2025	Handwriting generationText Generation	CodeCode Available	1
MVAR: Visual Autoregressive Modeling with Scale and Spatial Markovian Conditioning	May 19, 2025	GPU	CodeCode Available	1
GuRE:Generative Query REwriter for Legal Passage Retrieval	May 19, 2025	Passage RetrievalRetrieval	CodeCode Available	1
Shadow-FT: Tuning Instruct via Base	May 19, 2025		CodeCode Available	1
SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information	May 19, 2025	FairnessMultimodal Reasoning	CodeCode Available	1
Ineq-Comp: Benchmarking Human-Intuitive Compositional Reasoning in Automated Theorem Proving on Inequalities	May 19, 2025	Automated Theorem ProvingBenchmarking	CodeCode Available	1
Reasoning-OCR: Can Large Multimodal Models Solve Complex Logical Reasoning Problems from OCR Cues?	May 19, 2025	Logical ReasoningOptical Character Recognition	CodeCode Available	1
Gluon: Making Muon & Scion Great Again! (Bridging Theory and Practice of LMO-based Optimizers for LLMs)	May 19, 2025		CodeCode Available	1
Know Or Not: a library for evaluating out-of-knowledge base robustness	May 19, 2025	HallucinationRAG	CodeCode Available	1
EffiBench-X: A Multi-Language Benchmark for Measuring Efficiency of LLM-Generated Code	May 19, 2025	Code Generation	CodeCode Available	1
SeedBench: A Multi-task Benchmark for Evaluating Large Language Models in Seed Science	May 19, 2025		CodeCode Available	1
Aneumo: A Large-Scale Multimodal Aneurysm Dataset with Computational Fluid Dynamics Simulations and Deep Learning Benchmarks	May 19, 2025		CodeCode Available	1
HiERO: understanding the hierarchy of human behavior enhances reasoning on egocentric videos	May 19, 2025	Procedure Learning	CodeCode Available	1
3D Visual Illusion Depth Estimation	May 19, 2025	Common Sense ReasoningDepth Estimation	CodeCode Available	1
Effective and Transparent RAG: Adaptive-Reward Reinforcement Learning for Decision Traceability	May 19, 2025	RAGReinforcement Learning (RL)	CodeCode Available	1
What is Stigma Attributed to? A Theory-Grounded, Expert-Annotated Interview Corpus for Demystifying Mental-Health Stigma	May 19, 2025	Chatbot	CodeCode Available	1
Learning Collision Risk from Naturalistic Driving with Generalised Surrogate Safety Measures	May 19, 2025		CodeCode Available	1
Fine-tuning Quantized Neural Networks with Zeroth-order Optimization	May 19, 2025	GPUQuantization	CodeCode Available	1
From Local Details to Global Context: Advancing Vision-Language Models with Attention-Based Selection	May 19, 2025	feature selectionOut-of-Distribution Generalization	CodeCode Available	1
Role-Playing Evaluation for Large Language Models	May 19, 2025	Language Model Evaluation	CodeCode Available	1
What Lives? A meta-analysis of diverse opinions on the definition of life	May 19, 2025	Philosophy	CodeCode Available	1
BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation	May 19, 2025	Binary ClassificationDeepFake Detection	CodeCode Available	1
CALM-PDE: Continuous and Adaptive Convolutions for Latent Space Modeling of Time-dependent PDEs	May 19, 2025		CodeCode Available	1
A Skull-Adaptive Framework for AI-Based 3D Transcranial Focused Ultrasound Simulation	May 19, 2025	Position	CodeCode Available	1
AutoMat: Enabling Automated Crystal Structure Reconstruction from Microscopy via Agentic Tool Use	May 19, 2025	DenoisingFormation Energy	CodeCode Available	1
TimeSeriesGym: A Scalable Benchmark for (Time Series) Machine Learning Engineering Agents	May 19, 2025	AI AgentBenchmarking	CodeCode Available	1
Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards	May 19, 2025	Mathematical Reasoning	CodeCode Available	1
FlowPure: Continuous Normalizing Flows for Adversarial Purification	May 19, 2025	Adversarial PurificationAdversarial Robustness	CodeCode Available	1
Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs	May 19, 2025	Reinforcement Learning (RL)	CodeCode Available	1
AGI-Elo: How Far Are We From Mastering A Task?	May 19, 2025	Code GenerationImage Classification	CodeCode Available	1
Decentralized Arena: Towards Democratic and Scalable Automatic Evaluation of Language Models	May 19, 2025	BenchmarkingChatbot	CodeCode Available	1
R3: Robust Rubric-Agnostic Reward Models	May 19, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone	May 19, 2025	Knowledge DistillationTransfer Learning	CodeCode Available	1
Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment	May 19, 2025	Music Generation	CodeCode Available	1
Is Artificial Intelligence Generated Image Detection a Solved Problem?	May 18, 2025	Data AugmentationImage Generation	CodeCode Available	1
Hyperspectral Image Land Cover Captioning Dataset for Vision Language Models	May 18, 2025	Classification	CodeCode Available	1