The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 20201–20250 of 474278 papers

Title	Date	Tasks	Status	Hype
Autoencoding Random Forests	May 27, 2025	Denoising	—Unverified	0
LPOI: Listwise Preference Optimization for Vision Language Models	May 27, 2025	Object	CodeCode Available	1
Simple yet Effective Graph Distillation via Clustering	May 27, 2025	ClusteringGraph Representation Learning	—Unverified	0
The Multilingual Divide and Its Impact on Global AI Safety	May 27, 2025	Language ModelingLanguage Modelling	—Unverified	0
OASIS: Online Sample Selection for Continual Visual Instruction Tuning	May 27, 2025	Informativeness	—Unverified	0
AI Approach for Predicting Superhyrophobicity of Thermal Sprayed Copper Coated Aluminum Surfaces	May 27, 2025		CodeCode Available	0
AZT1D: A Real-World Dataset for Type 1 Diabetes	May 27, 2025	Decision Making	—Unverified	0
Rendering-Aware Reinforcement Learning for Vector Graphics Generation	May 27, 2025	Code Generationreinforcement-learning	—Unverified	0
Code Researcher: Deep Research Agent for Large Systems Code and Commit History	May 27, 2025	Large Language Model	—Unverified	0
DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving	May 27, 2025	Autonomous DrivingDecision Making	—Unverified	0
FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering	May 27, 2025	BenchmarkingQuestion Answering	CodeCode Available	0
MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding	May 27, 2025	Reinforcement Learning (RL)Video Understanding	CodeCode Available	1
Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning?	May 27, 2025	Multimodal Reasoning	CodeCode Available	2
Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals	May 27, 2025	Virtual Try-OffVirtual Try-on	CodeCode Available	1
Explainability of Large Language Models using SMILE: Statistical Model-agnostic Interpretability with Local Explanations	May 27, 2025		CodeCode Available	1
Non-invasive two-step strategy BCI: brain-muscle-hand interface	May 27, 2025	Brain Computer InterfaceSSVEP	—Unverified	0
MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs	May 27, 2025	Logical ReasoningMME	—Unverified	0
Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO	May 27, 2025	Autonomous DrivingDecision Making	—Unverified	0
Constructing a bridge between functioning of oscillatory neuronal networks and quantum-like cognition along with quantum-inspired computation and AI	May 27, 2025	Decision Making	—Unverified	0
MoE-Gyro: Self-Supervised Over-Range Reconstruction and Denoising for MEMS Gyroscopes	May 27, 2025	BenchmarkingDenoising	—Unverified	0
Bencher: Simple and Reproducible Benchmarking for Black-Box Optimization	May 27, 2025	Benchmarking	CodeCode Available	1
Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models	May 27, 2025	Mathematical Reasoning	—Unverified	0
Measuring Representational Shifts in Continual Learning: A Linear Transformation Perspective	May 27, 2025	Continual Learning	—Unverified	0
WDMIR: Wavelet-Driven Multimodal Intent Recognition	May 27, 2025	Intent RecognitionMultimodal Intent Recognition	—Unverified	0
ChemHAS: Hierarchical Agent Stacking for Enhancing Chemistry Tools	May 27, 2025	AI AgentLanguage Modeling	—Unverified	0
Long Context Scaling: Divide and Conquer via Multi-Agent Question-driven Collaboration	May 27, 2025	RAG	—Unverified	0
Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective	May 27, 2025	Language ModelingLanguage Modelling	—Unverified	0
Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation	May 27, 2025		—Unverified	0
A Reinforcement-Learning-Enhanced LLM Framework for Automated A/B Testing in Personalized Marketing	May 27, 2025	MarketingMulti-Armed Bandits	—Unverified	0
Let Me Think! A Long Chain-of-Thought Can Be Worth Exponentially Many Short Ones	May 27, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents	May 27, 2025	16k	CodeCode Available	2
AutoJudger: An Agent-Driven Framework for Efficient Benchmarking of MLLMs	May 27, 2025	BenchmarkingQuestion Selection	CodeCode Available	0
HoliTom: Holistic Token Merging for Fast Video Large Language Models	May 27, 2025		CodeCode Available	2
ZigzagPointMamba: Spatial-Semantic Mamba for Point Cloud Understanding	May 27, 2025	Computational EfficiencyMamba	—Unverified	0
Aligning Proteins and Language: A Foundation Model for Protein Retrieval	May 27, 2025	Contrastive LearningRetrieval	—Unverified	0
E2E Process Automation Leveraging Generative AI and IDP-Based Automation Agent: A Case Study on Corporate Expense Processing	May 27, 2025	Decision MakingOptical Character Recognition (OCR)	—Unverified	0
Hardware-Efficient Attention for Fast Decoding	May 27, 2025		CodeCode Available	2
SpecExtend: A Drop-in Enhancement for Speculative Decoding of Long Sequences	May 27, 2025	16kLong-Context Understanding	CodeCode Available	0
Think Before You Diffuse: LLMs-Guided Physics-Aware Video Generation	May 27, 2025	Large Language ModelMultimodal Large Language Model	—Unverified	0
Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score	May 27, 2025	Conformal PredictionPrediction	—Unverified	0
Beyond Chemical QA: Evaluating LLM's Chemical Reasoning with Modular Chemical Operations	May 27, 2025	Chemical Reaction PredictionDrug Design	—Unverified	0
PoisonSwarm: Universal Harmful Information Synthesis via Model Crowdsourcing	May 27, 2025	counterfactualDiversity	—Unverified	0
Pretraining Language Models to Ponder in Continuous Space	May 27, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
TimePro: Efficient Multivariate Long-term Time Series Forecasting with Variable- and Time-Aware Hyper-state	May 27, 2025	MambaTime Series	CodeCode Available	2
LLaMEA-BO: A Large Language Model Evolutionary Algorithm for Automatically Generating Bayesian Optimization Algorithms	May 27, 2025	Bayesian OptimizationBenchmarking	CodeCode Available	2
Reinforcing General Reasoning without Verifiers	May 27, 2025	MathMathematical Reasoning	CodeCode Available	2
EasyDistill: A Comprehensive Toolkit for Effective Knowledge Distillation of Large Language Models	May 27, 2025	Knowledge Distillation	—Unverified	0
Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning	May 27, 2025	Math	—Unverified	0
Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning	May 27, 2025	Boundary Detection	—Unverified	0
Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models	May 27, 2025	Concept Alignmentobject-detection	CodeCode Available	2