The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 19901–19950 of 474278 papers

Title	Date	Tasks	Status	Hype
Distributionally Robust Wireless Semantic Communication with Large AI Models	May 28, 2025	Semantic Communication	—Unverified	0
Enhancing Paraphrase Type Generation: The Impact of DPO and RLHF Evaluated with Human-Ranked Data	May 28, 2025	Machine TranslationParaphrase Generation	CodeCode Available	0
Point-to-Region Loss for Semi-Supervised Point-Based Crowd Counting	May 28, 2025	Crowd CountingDomain Adaptation	CodeCode Available	0
VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning	May 28, 2025	RAG	CodeCode Available	3
Breaking the Cloak! Unveiling Chinese Cloaked Toxicity with Homophone Graph and Toxic Lexicon	May 28, 2025	Abusive Language	—Unverified	0
Autoregression-free video prediction using diffusion model for mitigating error propagation	May 28, 2025	motion predictionPrediction	CodeCode Available	0
Single Domain Generalization for Alzheimer's Detection from 3D MRIs with Pseudo-Morphological Augmentations and Contrastive Learning	May 28, 2025	Alzheimer's DetectionAlzheimer's Disease Detection	CodeCode Available	0
Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models	May 28, 2025		CodeCode Available	0
ChatCFD: an End-to-End CFD Agent with Domain-specific Structured Thinking	May 28, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
DistMLIP: A Distributed Inference Platform for Machine Learning Interatomic Potentials	May 28, 2025	Drug Discoverygraph partitioning	CodeCode Available	2
Evaluation Hallucination in Multi-Round Incomplete Information Lateral-Driven Reasoning Tasks	May 28, 2025	Hallucination	—Unverified	0
CADRE: Customizable Assurance of Data Readiness in Privacy-Preserving Federated Learning	May 28, 2025	FairnessFederated Learning	—Unverified	0
Scalable, Symbiotic, AI and Non-AI Agent Based Parallel Discrete Event Simulations	May 28, 2025	AI Agent	—Unverified	0
Speech as a Multimodal Digital Phenotype for Multi-Task LLM-based Mental Health Prediction	May 28, 2025	Depression DetectionLanguage Modeling	—Unverified	0
Large Language Models Often Know When They Are Being Evaluated	May 28, 2025	MMLUMultiple-choice	—Unverified	0
Directed Homophily-Aware Graph Neural Network	May 28, 2025	Graph Neural NetworkInformativeness	—Unverified	0
ValueSim: Generating Backstories to Model Individual Value Systems	May 28, 2025	modelPrompt Learning	—Unverified	0
EvoMoE: Expert Evolution in Mixture of Experts for Multimodal Large Language Models	May 28, 2025	Mixture-of-ExpertsMME	—Unverified	0
ICH-Qwen: A Large Language Model Towards Chinese Intangible Cultural Heritage	May 28, 2025	Language ModelingLanguage Modelling	—Unverified	0
LegalSearchLM: Rethinking Legal Case Retrieval as Legal Elements Generation	May 28, 2025	Retrieval	—Unverified	0
Document Valuation in LLM Summaries: A Cluster Shapley Approach	May 28, 2025	Semantic SimilaritySemantic Textual Similarity	—Unverified	0
Read Your Own Mind: Reasoning Helps Surface Self-Confidence Signals in LLMs	May 28, 2025	Question Answering	—Unverified	0
SkewRoute: Training-Free LLM Routing for Knowledge Graph Retrieval-Augmented Generation via Score Skewness of Retrieved Context	May 28, 2025	HallucinationRAG	—Unverified	0
Measuring Sycophancy of Language Models in Multi-turn Dialogues	May 28, 2025		CodeCode Available	1
SOReL and TOReL: Two Methods for Fully Offline Reinforcement Learning	May 28, 2025	Offline RLreinforcement-learning	CodeCode Available	0
Seven Security Challenges That Must be Solved in Cross-domain Multi-agent LLM Systems	May 28, 2025	Disaster ResponsePosition	—Unverified	0
Exploring the Landscape of Text-to-SQL with Large Language Models: Progresses, Challenges and Opportunities	May 28, 2025	Text to SQLText-To-SQL	—Unverified	0
Derailing Non-Answers via Logit Suppression at Output Subspace Boundaries in RLHF-Aligned Language Models	May 28, 2025	Blocking	—Unverified	0
Beyond Perception: Evaluating Abstract Visual Reasoning through Multi-Stage Task	May 28, 2025	Visual Reasoning	CodeCode Available	0
Enabling Flexible Multi-LLM Integration for Scalable Knowledge Aggregation	May 28, 2025		CodeCode Available	0
VIRAL: Vision-grounded Integration for Reward design And Learning	May 28, 2025		CodeCode Available	0
RAGPPI: RAG Benchmark for Protein-Protein Interactions in Drug Discovery	May 28, 2025	Drug DiscoveryRAG	CodeCode Available	0
Benchmarking Abstract and Reasoning Abilities Through A Theoretical Perspective	May 28, 2025	BenchmarkingMemorization	CodeCode Available	0
Patient-Aware Feature Alignment for Robust Lung Sound Classification:Cohesion-Separation and Global Alignment Losses	May 28, 2025	Audio ClassificationLung Sound Classification	CodeCode Available	0
Stochastic Chameleons: Irrelevant Context Hallucinations Reveal Class-Based (Mis)Generalization in LLMs	May 28, 2025	feature selection	—Unverified	0
Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning	May 28, 2025	Continual Learningparameter-efficient fine-tuning	—Unverified	0
Automated Essay Scoring Incorporating Annotations from Automated Feedback Systems	May 28, 2025	Automated Essay ScoringLanguage Modeling	—Unverified	0
Skywork Open Reasoner 1 Technical Report	May 28, 2025	MathReinforcement Learning (RL)	CodeCode Available	4
Scalable Parameter and Memory Efficient Pretraining for LLM: Recent Algorithmic Advances and Benchmarking	May 28, 2025	Benchmarking	CodeCode Available	1
Climate Finance Bench	May 28, 2025	Logical ReasoningQuantization	CodeCode Available	0
Update Your Transformer to the Latest Release: Re-Basin of Task Vectors	May 28, 2025	Re-basin	CodeCode Available	1
Mustafar: Promoting Unstructured Sparsity for KV Cache Pruning in LLM Inference	May 28, 2025		CodeCode Available	0
Cross-modal RAG: Sub-dimensional Retrieval-Augmented Text-to-Image Generation	May 28, 2025	Image GenerationLanguage Modeling	CodeCode Available	0
Multivariate de Bruijn Graphs: A Symbolic Graph Framework for Time Series Forecasting	May 28, 2025	Time SeriesTime Series Forecasting	CodeCode Available	0
Improving Brain-to-Image Reconstruction via Fine-Grained Text Bridging	May 28, 2025	Image ReconstructionLanguage Modeling	—Unverified	0
CAST: Contrastive Adaptation and Distillation for Semi-Supervised Instance Segmentation	May 28, 2025	Domain AdaptationInstance Segmentation	—Unverified	0
The Meeseeks Mesh: Spatially Consistent 3D Adversarial Objects for BEV Detector	May 28, 2025	3D Object DetectionAutonomous Driving	—Unverified	0
RiverMamba: A State Space Model for Global River Discharge and Flood Forecasting	May 28, 2025	Deep LearningMamba	—Unverified	0
LLM-ODDR: A Large Language Model Framework for Joint Order Dispatching and Driver Repositioning	May 28, 2025	Combinatorial OptimizationFairness	—Unverified	0
Calibrated Value-Aware Model Learning with Stochastic Environment Models	May 28, 2025	Model-based Reinforcement Learning	—Unverified	0