The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8326–8350 of 474278 papers

Title	Date	Status
LEGO: A Lightweight and Efficient Multiple-Attribute Unlearning Framework for Recommender Systems	Oct 23, 2025	CodeCode Available
Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Reward Design	Oct 23, 2025	—Unverified
Sherlock: Self-Correcting Reasoning in Vision-Language Models	Oct 23, 2025	—Unverified
Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning	Oct 23, 2025	—Unverified
PPMStereo: Pick-and-Play Memory Construction for Consistent Dynamic Stereo Matching	Oct 23, 2025	CodeCode Available
RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling	Oct 23, 2025	CodeCode Available
COS3D: Collaborative Open-Vocabulary 3D Segmentation	Oct 23, 2025	CodeCode Available
SynTSBench: Rethinking Temporal Pattern Learning in Deep Learning Models for Time Series	Oct 23, 2025	CodeCode Available
DesignX: Human-Competitive Algorithm Designer for Black-Box Optimization	Oct 23, 2025	CodeCode Available
FuseUNet: A Multi-Scale Feature Fusion Method for U-like Networks	Oct 23, 2025	CodeCode Available
Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models?	Oct 23, 2025	CodeCode Available
A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System	Oct 23, 2025	CodeCode Available
Towards Robust Zero-Shot Reinforcement Learning	Oct 23, 2025	CodeCode Available
Illusions of reflection: open-ended task reveals systematic failures in Large Language Models' reflective reasoning	Oct 23, 2025	CodeCode Available
A Renaissance of Explicit Motion Information Mining from Transformers for Action Recognition	Oct 23, 2025	CodeCode Available
Calibrating Multimodal Consensus for Emotion Recognition	Oct 23, 2025	CodeCode Available
Learning To Defer To A Population With Limited Demonstrations	Oct 23, 2025	CodeCode Available
Revisiting Logit Distributions for Reliable Out-of-Distribution Detection	Oct 23, 2025	CodeCode Available
Teaching Language Models to Reason with Tools	Oct 23, 2025	CodeCode Available
Attentive Convolution: Unifying the Expressivity of Self-Attention with Convolutional Efficiency	Oct 23, 2025	CodeCode Available
Federated Learning via Meta-Variational Dropout	Oct 23, 2025	CodeCode Available
FedGPS: Statistical Rectification Against Data Heterogeneity in Federated Learning	Oct 23, 2025	CodeCode Available
ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases	Oct 23, 2025	CodeCode Available
ROOT: Rethinking Offline Optimization as Distributional Translation via Probabilistic Bridge	Oct 23, 2025	CodeCode Available
VT-FSL: Bridging Vision and Text with LLMs for Few-Shot Learning	Oct 23, 2025	CodeCode Available