The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6626–6650 of 474278 papers

Title	Date	Status
PARROT: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs	Dec 1, 2025	—Unverified
TBT-Former: Learning Temporal Boundary Distributions for Action Localization	Dec 1, 2025	CodeCode Available
FreeSwim: Revisiting Sliding-Window Attention Mechanisms for Training-Free Ultra-High-Resolution Video Generation	Dec 1, 2025	CodeCode Available
PromptBridge: Cross-Model Prompt Transfer for Large Language Models	Dec 1, 2025	—Unverified
AdamNX: An Adam improvement algorithm based on a novel exponential decay mechanism for the second-order moment estimate	Dec 1, 2025	CodeCode Available
Measuring and Guiding Monosemanticity	Dec 1, 2025	—Unverified
Adaptive Nonlinear Vector Autoregression: Robust Forecasting for Noisy Chaotic Time Series	Dec 1, 2025	—Unverified
PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection	Dec 1, 2025	—Unverified
Extended Physics Informed Neural Network for Hyperbolic Two-Phase Flow in Porous Media	Dec 1, 2025	CodeCode Available
Real-World Reinforcement Learning of Active Perception Behaviors	Dec 1, 2025	—Unverified
EGG-Fusion: Efficient 3D Reconstruction with Geometry-aware Gaussian Surfel on the Fly	Dec 1, 2025	—Unverified
Rethinking Intracranial Aneurysm Vessel Segmentation: A Perspective from Computational Fluid Dynamics Applications	Dec 1, 2025	CodeCode Available
FRAMER: Frequency-Aligned Self-Distillation with Adaptive Modulation Leveraging Diffusion Priors for Real-World Image Super-Resolution	Dec 1, 2025	—Unverified
MDiff4STR: Mask Diffusion Model for Scene Text Recognition	Dec 1, 2025	—Unverified
T-SHIRT: Token-Selective Hierarchical Data Selection for Instruction Tuning	Dec 1, 2025	CodeCode Available
PSR: Scaling Multi-Subject Personalized Image Generation with Pairwise Subject-Consistency Rewards	Dec 1, 2025	CodeCode Available
Stay Unique, Stay Efficient: Preserving Model Personality in Multi-Task Merging	Dec 1, 2025	CodeCode Available
MCAT: Scaling Many-to-Many Speech-to-Text Translation with MLLMs to 70 Languages	Dec 1, 2025	CodeCode Available
QuantumCanvas: A Multimodal Benchmark for Visual Learning of Atomic Interactions	Dec 1, 2025	CodeCode Available
DrawingBench: Evaluating Spatial Reasoning and UI Interaction Capabilities of Large Language Models through Mouse-Based Drawing Tasks	Dec 1, 2025	CodeCode Available
GFT: Graph Feature Tuning for Efficient Point Cloud Analysis	Dec 1, 2025	CodeCode Available
One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfer	Dec 1, 2025	CodeCode Available
VSRD++: Autolabeling for 3D Object Detection via Instance-Aware Volumetric Silhouette Rendering	Dec 1, 2025	CodeCode Available
Toward a benchmark for CTR prediction in online advertising: datasets, evaluation protocols and perspectives	Dec 1, 2025	CodeCode Available
Efficient Training of Diffusion Mixture-of-Experts Models: A Practical Recipe	Dec 1, 2025	CodeCode Available