The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

661,570 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11001–11050 of 661570 papers

Title	Date	Status	Hype
Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding	Mar 5, 2026	CodeCode Available	0
Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model	Mar 5, 2026	CodeCode Available	0
Survive at All Costs: Exploring LLM's Risky Behaviors under Survival Pressure	Mar 5, 2026	CodeCode Available	0
Mario: Multimodal Graph Reasoning with Large Language Models	Mar 5, 2026	CodeCode Available	0
Embedded Inter-Subject Variability in Adversarial Learning for Inertial Sensor-Based Human Activity Recognition	Mar 5, 2026	CodeCode Available	0
Planner Aware Path Learning in Diffusion Language Models Training	Mar 5, 2026	CodeCode Available	0
SURE: Semi-dense Uncertainty-REfined Feature Matching	Mar 5, 2026	CodeCode Available	0
Eka-Eval: An Evaluation Framework for Low-Resource Multilingual Large Language Models	Mar 5, 2026	CodeCode Available	0
Progressive Residual Warmup for Language Model Pretraining	Mar 5, 2026	CodeCode Available	0
ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking	Mar 5, 2026	CodeCode Available	0
Temporal Misalignment Attacks against Multimodal Perception in Autonomous Driving	Mar 5, 2026	CodeCode Available	0
MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models	Mar 5, 2026	CodeCode Available	0
Think-While-Generating: On-the-Fly Reasoning for Personalized Long-Form Generation	Mar 5, 2026	CodeCode Available	0
IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation	Mar 5, 2026	CodeCode Available	0
Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning	Mar 5, 2026	CodeCode Available	0
Causally Robust Reward Learning from Reason-Augmented Preference Feedback	Mar 5, 2026	CodeCode Available	0
Free Lunch for Pass@k? Low Cost Diverse Sampling for Diffusion Language Models	Mar 5, 2026	CodeCode Available	0
VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory	Mar 5, 2026	CodeCode Available	0
FedBCD:Communication-Efficient Accelerated Block Coordinate Gradient Descent for Federated Learning	Mar 5, 2026	CodeCode Available	0
Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity	Mar 5, 2026	CodeCode Available	0
Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule	Mar 5, 2026	CodeCode Available	0
Stable-LoRA: Stabilizing Feature Learning of Low-Rank Adaptation	Mar 5, 2026	CodeCode Available	0
VietJobs: A Vietnamese Job Advertisement Dataset	Mar 5, 2026	CodeCode Available	0
SlideSparse: Fast and Flexible (2N-2):2N Structured Sparsity	Mar 5, 2026	CodeCode Available	0
ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking	Mar 5, 2026	CodeCode Available	0
Judge Reliability Harness: Stress Testing the Reliability of LLM Judges	Mar 5, 2026	CodeCode Available	0
SurvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis	Mar 5, 2026	CodeCode Available	0
Towards Provably Unbiased LLM Judges via Bias-Bounded Evaluation	Mar 5, 2026	CodeCode Available	0
Making Reconstruction FID Predictive of Diffusion Generation FID	Mar 5, 2026	CodeCode Available	0
Any to Full: Prompting Depth Anything for Depth Completion in One Stage	Mar 5, 2026	CodeCode Available	0
PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation	Mar 5, 2026	CodeCode Available	0
BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement	Mar 5, 2026	CodeCode Available	0
Pursuing Minimal Sufficiency in Spatial Reasoning	Mar 5, 2026	CodeCode Available	0
Reclaiming Lost Text Layers for Source-Free Cross-Domain Few-Shot Learning	Mar 5, 2026	CodeCode Available	0
Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation	Mar 5, 2026	CodeCode Available	0
Interactive Benchmarks	Mar 5, 2026	CodeCode Available	0
MotionStream: Real-Time Video Generation with Interactive Motion Controls	Mar 5, 2026	—Unverified	4
OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs	Mar 5, 2026	—Unverified	2
Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model	Mar 5, 2026	—Unverified	1
-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space	Mar 5, 2026	—Unverified	1
BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning	Mar 5, 2026	—Unverified	1
LLEMA: Evolutionary Search with LLMs for Multi-Objective Materials Discovery	Mar 5, 2026	—Unverified	1
RealWonder: Real-Time Physical Action-Conditioned Video Generation	Mar 5, 2026	—Unverified	2
KLASS: KL-Guided Fast Inference in Masked Diffusion Models	Mar 5, 2026	—Unverified	1
Hyperspherical Latents Improve Continuous-Token Autoregressive Generation	Mar 5, 2026	—Unverified	2
Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels	Mar 5, 2026	—Unverified	2
VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL	Mar 5, 2026	—Unverified	1
Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline	Mar 5, 2026	—Unverified	1
The Fragility Of Moral Judgment In Large Language Models	Mar 5, 2026	—Unverified	0
Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion	Mar 5, 2026	—Unverified	0