The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

659,983 papers248,104 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 526–550 of 659983 papers

Title	Date	Status
Benchmarking Multi-Agent LLM Architectures for Financial Document Processing: A Comparative Study of Orchestration Patterns, Cost-Accuracy Tradeoffs and Production Scaling Strategies	Mar 24, 2026	—Unverified
Generalizing Dynamics Modeling More Easily from Representation Perspective	Mar 24, 2026	—Unverified
Large-Scale Avalanche Mapping from SAR Images with Deep Learning-based Change Detection	Mar 24, 2026	—Unverified
How Far Can VLMs Go for Visual Bug Detection? Studying 19,738 Keyframes from 41 Hours of Gameplay Videos	Mar 24, 2026	—Unverified
Detecting Non-Membership in LLM Training Data via Rank Correlations	Mar 24, 2026	—Unverified
Who Spoke What When? Evaluating Spoken Language Models for Conversational ASR with Semantic and Overlap-Aware Metrics	Mar 24, 2026	—Unverified
Non-Adversarial Imitation Learning Provably Free of Compounding Errors: The Role of Bellman Constraints	Mar 24, 2026	—Unverified
HyFI: Hyperbolic Feature Interpolation for Brain-Vision Alignment	Mar 24, 2026	—Unverified
Double Coupling Architecture and Training Method for Optimization Problems of Differential Algebraic Equations with Parameters	Mar 24, 2026	—Unverified
Spiking Personalized Federated Learning for Brain-Computer Interface-Enabled Immersive Communication	Mar 24, 2026	—Unverified
Behavioral Heterogeneity as Quantum-Inspired Representation	Mar 24, 2026	—Unverified
How Utilitarian Are OpenAI's Models Really? Replicating and Reinterpreting Pfeffer, Krügel, and Uhl (2025)	Mar 24, 2026	—Unverified
Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning	Mar 24, 2026	—Unverified
ENC-Bench: A Benchmark for Evaluating Multimodal Large Language Models in Electronic Navigational Chart Understanding	Mar 24, 2026	—Unverified
DALDALL: Data Augmentation for Lexical and Semantic Diverse in Legal Domain by leveraging LLM-Persona	Mar 24, 2026	—Unverified
From Overload to Convergence: Supporting Multi-Issue Human-AI Negotiation with Bayesian Visualization	Mar 24, 2026	—Unverified
Can LLM Agents Generate Real-World Evidence? Evaluating Observational Studies in Medical Databases	Mar 24, 2026	—Unverified
From Pixels to Semantics: A Multi-Stage AI Framework for Structural Damage Detection in Satellite Imagery	Mar 24, 2026	—Unverified
From Arithmetic to Logic: The Resilience of Logic and Lookup-Based Neural Networks Under Parameter Bit-Flips	Mar 24, 2026	—Unverified
Explainable Threat Attribution for IoT Networks Using Conditional SHAP and Flow Behavior Modelling	Mar 24, 2026	—Unverified
Viewport-based Neural 360° Image Compression	Mar 24, 2026	—Unverified
AgriPestDatabase-v1.0: A Structured Insect Dataset for Training Agricultural Large Language Model	Mar 24, 2026	—Unverified
Typography-Based Monocular Distance Estimation Framework for Vehicle Safety Systems	Mar 24, 2026	—Unverified
Know3D: Prompting 3D Generation with Knowledge from Vision-Language Models	Mar 24, 2026	—Unverified
Caterpillar of Thoughts: The Optimal Test-Time Algorithm for Large Language Models	Mar 24, 2026	—Unverified