The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 13301–13350 of 474278 papers

Title	Date	Tasks	Status	Hype
DICE-BENCH: Evaluating the Tool-Use Capabilities of Large Language Models in Multi-Round, Multi-Party Dialogues	Jul 2, 2025		—Unverified	0
ESTR-CoT: Towards Explainable and Accurate Event Stream based Scene Text Recognition with Chain-of-Thought Reasoning	Jul 2, 2025		CodeCode Available	0
AdamMeme: Adaptively Probe the Reasoning Capacity of Multimodal Large Language Models on Harmfulness	Jul 2, 2025		CodeCode Available	0
PanTS: The Pancreatic Tumor Segmentation Dataset	Jul 2, 2025		—Unverified	0
DIY-MKG: An LLM-Based Polyglot Language Learning System	Jul 2, 2025		—Unverified	0
Evaluating Robustness of Monocular Depth Estimation with Procedural Scene Perturbations	Jul 2, 2025		CodeCode Available	0
TD-MPC-Opt: Distilling Model-Based Multi-Task Reinforcement Learning Agents	Jul 2, 2025		CodeCode Available	0
Adapting Rule Representation With Four-Parameter Beta Distribution for Learning Classifier Systems	Jul 2, 2025		CodeCode Available	0
MassTool: A Multi-Task Search-Based Tool Retrieval Framework for Large Language Models	Jul 2, 2025		CodeCode Available	0
CaptionSmiths: Flexibly Controlling Language Pattern in Image Captioning	Jul 2, 2025		CodeCode Available	0
HCNQA: Enhancing 3D VQA with Hierarchical Concentration Narrowing Supervision	Jul 2, 2025		CodeCode Available	0
MobileIE: An Extremely Lightweight and Effective ConvNet for Real-Time Image Enhancement on Mobile Devices	Jul 2, 2025		CodeCode Available	0
CI-VID: A Coherent Interleaved Text-Video Dataset	Jul 2, 2025		CodeCode Available	0
MARVIS: Modality Adaptive Reasoning over VISualizations	Jul 2, 2025		CodeCode Available	0
Hierarchical Patch Compression for ColPali: Efficient Multi-Vector Document Retrieval with Dynamic Pruning and Quantization	Jul 2, 2025		CodeCode Available	0
Classification based deep learning models for lung cancer and disease using medical images	Jul 2, 2025		CodeCode Available	0
Structure and Smoothness Constrained Dual Networks for MR Bias Field Correction	Jul 2, 2025		CodeCode Available	0
Medical-Knowledge Driven Multiple Instance Learning for Classifying Severe Abdominal Anomalies on Prenatal Ultrasound	Jul 2, 2025		CodeCode Available	0
Active Control Points-based 6DoF Pose Tracking for Industrial Metal Objects	Jul 2, 2025		CodeCode Available	0
Is External Information Useful for Stance Detection with LLMs?	Jul 2, 2025		CodeCode Available	0
Depth Anything at Any Condition	Jul 2, 2025		CodeCode Available	0
AirV2X: Unified Air-Ground Vehicle-to-Everything Collaboration	Jul 2, 2025		CodeCode Available	0
Non-exchangeable Conformal Prediction for Temporal Graph Neural Networks	Jul 2, 2025		CodeCode Available	0
CLUES: Collaborative High-Quality Data Selection for LLMs via Training Dynamics	Jul 2, 2025		CodeCode Available	0
OpenTable-R1: A Reinforcement Learning Augmented Tool Agent for Open-Domain Table Question Answering	Jul 2, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
Evaluating the Promise and Pitfalls of LLMs in Hiring Decisions	Jul 2, 2025	Fairness	—Unverified	0
LoRA Fine-Tuning Without GPUs: A CPU-Efficient Meta-Generation Framework for LLMs	Jul 2, 2025	CPUGPU	—Unverified	0
Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis	Jul 2, 2025	Density EstimationImage Generation	—Unverified	0
Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation	Jul 2, 2025	Image GenerationPrediction	—Unverified	0
Tuning without Peeking: Provable Privacy and Generalization Bounds for LLM Post-Training	Jul 2, 2025	Data PoisoningGeneralization Bounds	—Unverified	0
DARTS: A Dual-View Attack Framework for Targeted Manipulation in Federated Sequential Recommendation	Jul 2, 2025	Contrastive LearningSequential Recommendation	—Unverified	0
ICLShield: Exploring and Mitigating In-Context Learning Backdoor Attacks	Jul 2, 2025	In-Context Learning	—Unverified	0
A Privacy-Preserving Indoor Localization System based on Hierarchical Federated Learning	Jul 2, 2025	Federated LearningIndoor Localization	—Unverified	0
Advancing Magnetic Materials Discovery -- A structure-based machine learning approach for magnetic ordering and magnetic moment prediction	Jul 2, 2025	Feature EngineeringFormation Energy	—Unverified	0
Large Language Models for Crash Detection in Video: A Survey of Methods, Datasets, and Challenges	Jul 2, 2025	Video Understanding	—Unverified	0
Mamba Guided Boundary Prior Matters: A New Perspective for Generalized Polyp Segmentation	Jul 2, 2025	MambaSegmentation	CodeCode Available	0
Crop Pest Classification Using Deep Learning Techniques: A Review	Jul 2, 2025	Deep Learning	—Unverified	0
First Steps Towards Voice Anonymization for Code-Switching Speech	Jul 2, 2025	speech-recognitionSpeech Recognition	—Unverified	0
SketchColour: Channel Concat Guided DiT-based Sketch-to-Colour Pipeline for 2D Animation	Jul 2, 2025	GPU	—Unverified	0
NOCTIS: Novel Object Cyclic Threshold based Instance Segmentation	Jul 2, 2025	Instance SegmentationObject	CodeCode Available	0
RobuSTereo: Robust Zero-Shot Stereo Matching under Adverse Weather	Jul 2, 2025	DenoisingDepth Estimation	—Unverified	0
Underwater Monocular Metric Depth Estimation: Real-World Benchmarks and Synthetic Fine-Tuning	Jul 2, 2025	Depth EstimationDomain Adaptation	—Unverified	0
Autoadaptive Medical Segment Anything Model	Jul 2, 2025	Image SegmentationMedical Image Segmentation	CodeCode Available	0
Following the Clues: Experiments on Person Re-ID using Cross-Modal Intelligence	Jul 2, 2025	Autonomous DrivingGeneralizable Person Re-identification	CodeCode Available	0
DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy	Jul 2, 2025	Data AugmentationGeneralized Referring Expression Segmentation	CodeCode Available	1
The Future is Agentic: Definitions, Perspectives, and Open Challenges of Multi-Agent Recommender Systems	Jul 2, 2025	Explanation GenerationHallucination	—Unverified	0
3D Gaussian Splatting Driven Multi-View Robust Physical Adversarial Camouflage Generation	Jul 2, 2025	3DGSAdversarial Attack	CodeCode Available	0
Energy-Based Transformers are Scalable Learners and Thinkers	Jul 2, 2025	DenoisingImage Denoising	VerifiedCommunity Verified — 1 reproduction	5
Latent Chain-of-Thought? Decoding the Depth-Recurrent Transformer	Jul 2, 2025		CodeCode Available	1
LLM-based Realistic Safety-Critical Driving Video Generation	Jul 2, 2025	Autonomous DrivingAutonomous Vehicles	—Unverified	0