The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

661,570 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9901–9950 of 661570 papers

Title	Date	Status
From Physician Expertise to Clinical Agents: Preserving, Standardizing, and Scaling Physicians' Medical Expertise with Lightweight LLM	Mar 6, 2026	—Unverified
Chitrakshara: A Large Multilingual Multimodal Dataset for Indian languages	Mar 6, 2026	—Unverified
Qworld: Question-Specific Evaluation Criteria for LLMs	Mar 6, 2026	—Unverified
Do 3D Large Language Models Really Understand 3D Spatial Relationships?	Mar 6, 2026	—Unverified
Navigating the Concept Space of Language Models	Mar 6, 2026	—Unverified
Prompt Compression in Production Task Orchestration: A Pre-Registered Randomized Trial	Mar 6, 2026	—Unverified
Plato's Cave: A Human-Centered Research Verification System	Mar 6, 2026	—Unverified
Compression Method Matters: Benchmark-Dependent Output Dynamics in LLM Prompt Compression	Mar 6, 2026	—Unverified
The Compression Paradox in LLM Inference: Provider-Dependent Energy Effects of Prompt Compression	Mar 6, 2026	—Unverified
MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens	Mar 6, 2026	—Unverified
Beyond Accuracy: Introducing a Symbolic-Mechanistic Approach to Interpretable Evaluation	Mar 6, 2026	—Unverified
Cluster-R1: Large Reasoning Models Are Instruction-following Clustering Agents	Mar 6, 2026	—Unverified
Training a Large Language Model for Medical Coding Using Privacy-Preserving Synthetic Clinical Data	Mar 6, 2026	—Unverified
Email in the Era of LLMs	Mar 6, 2026	—Unverified
Characterizing the ability of LLMs to recapitulate Americans' distributional responses to public opinion polling questions across political issues	Mar 6, 2026	—Unverified
Beyond Scalar Rewards: Distributional Reinforcement Learning with Preordered Objectives for Safe and Reliable Autonomous Driving	Mar 6, 2026	—Unverified
Automated Motif Indexing on the Arabian Nights	Mar 6, 2026	—Unverified
KD-EKF: Knowledge-Distilled Adaptive Covariance EKF for Robust UWB/PDR Indoor Localization	Mar 6, 2026	—Unverified
Clinically Meaningful Explainability for NeuroAI: An ethical, technical, and clinical perspective	Mar 6, 2026	—Unverified
WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection	Mar 6, 2026	—Unverified
Chaotic Oscillator Networks for Classification Tasks	Mar 6, 2026	—Unverified
TerraLingua: Emergence and Analysis of Open-endedness in LLM Ecologies	Mar 6, 2026	—Unverified
How to Achieve Prototypical Birth and Death for OOD Detection?	Mar 6, 2026	—Unverified
A federated learning framework with knowledge graph and temporal transformer for early sepsis prediction in multi-center ICUs	Mar 6, 2026	—Unverified
MindfulAgents: Personalizing Mindfulness Meditation via an Expert-Aligned Multi-Agent System	Mar 6, 2026	—Unverified
MultiSolSegment: Multi-channel segmentation of overlapping features in electroluminescence images of photovoltaic cells	Mar 6, 2026	—Unverified
AdaBox: Adaptive Density-Based Box Clustering with Parameter Generalization	Mar 6, 2026	—Unverified
Information-Theoretic Constraints for Continual Vision-Language-Action Alignment	Mar 6, 2026	—Unverified
OpenExtract: Automated Data Extraction for Systematic Reviews in Health	Mar 6, 2026	CodeCode Available
Supporting Artifact Evaluation with LLMs: A Study with Published Security Research Papers	Mar 6, 2026	—Unverified
Evaluating Generalization Mechanisms in Autonomous Cyber Attack Agents	Mar 6, 2026	—Unverified
Enhancing SHAP Explainability for Diagnostic and Prognostic ML Models in Alzheimer Disease	Mar 6, 2026	—Unverified
Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR	Mar 6, 2026	—Unverified
FTSplat: Feed-forward Triangle Splatting Network	Mar 6, 2026	—Unverified
A recipe for scalable attention-based MLIPs: unlocking long-range accuracy with all-to-all node attention	Mar 6, 2026	—Unverified
HGT-Scheduler: Deep Reinforcement Learning for the Job Shop Scheduling Problem via Heterogeneous Graph Transformers	Mar 6, 2026	—Unverified
AI-Assisted Curation of Conference Scholarship: Compiling, Structuring, and Analyzing Two Decades of Presentations at the Society for Social Work and Research	Mar 6, 2026	—Unverified
Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation	Mar 6, 2026	—Unverified
A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment	Mar 6, 2026	CodeCode Available
A Hazard-Informed Data Pipeline for Robotics Physical Safety	Mar 6, 2026	—Unverified
Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering	Mar 6, 2026	—Unverified
SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration	Mar 6, 2026	—Unverified
Accelerating Scientific Research with Gemini: Case Studies and Common Techniques	Mar 6, 2026	—Unverified
Multi-Agent Reinforcement Learning with Submodular Reward	Mar 6, 2026	—Unverified
Making AI Evaluation Deployment Relevant Through Context Specification	Mar 6, 2026	—Unverified
Counting on Consensus: Selecting the Right Inter-annotator Agreement Metric for NLP Annotation and Evaluation	Mar 6, 2026	—Unverified
ContextBench: Modifying Contexts for Targeted Latent Activation	Mar 6, 2026	—Unverified
SPoT: Subpixel Placement of Tokens in Vision Transformers	Mar 6, 2026	—Unverified
Performance Assessment Strategies for Language Model Applications in Healthcare	Mar 6, 2026	—Unverified
SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning	Mar 6, 2026	—Unverified