The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 17651–17700 of 474278 papers

Title	Date	Tasks	Status	Hype
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos	Jun 5, 2025	BenchmarkingMathematical Reasoning	—Unverified	0
Exploring bidirectional bounds for minimax-training of Energy-based models	Jun 5, 2025	Density Estimation	—Unverified	0
Ontology-based knowledge representation for bone disease diagnosis: a foundation for safe and sustainable medical artificial intelligence systems	Jun 5, 2025	DiagnosticMultimodal Deep Learning	—Unverified	0
Parking, Perception, and Retail: Street-Level Determinants of Community Vitality in Harbin	Jun 5, 2025	Large Language ModelMorphological Analysis	—Unverified	0
Aligning Latent Spaces with Flow Priors	Jun 5, 2025	Image Generation	—Unverified	0
Design of intelligent proofreading system for English translation based on CNN and BERT	Jun 5, 2025	BenchmarkingMachine Translation	—Unverified	0
PUB: An LLM-Enhanced Personality-Driven User Behaviour Simulator for Recommender System Evaluation	Jun 5, 2025	DiversityRecommendation Systems	—Unverified	0
Towards Storage-Efficient Visual Document Retrieval: An Empirical Study on Reducing Patch-Level Embeddings	Jun 5, 2025	RetrievalToken Reduction	—Unverified	0
Context Is Not Comprehension	Jun 5, 2025	ListOps	—Unverified	0
Static Word Embeddings for Sentence Semantic Representation	Jun 5, 2025	Contrastive LearningKnowledge Distillation	—Unverified	0
Multiple-Choice Question Generation Using Large Language Models: Methodology and Educator Insights	Jun 5, 2025	Multiple-choiceQuestion Answering	—Unverified	0
Accelerated Test-Time Scaling with Model-Free Speculative Sampling	Jun 5, 2025	Language ModelingLanguage Modelling	—Unverified	0
SPARTA ALIGNMENT: Collectively Aligning Multiple Language Models through Combat	Jun 5, 2025	Diversity	—Unverified	0
Lifelong Evolution: Collaborative Learning between Large and Small Language Models for Continuous Emergent Fake News Detection	Jun 5, 2025	Fake News Detectionknowledge editing	—Unverified	0
CL-ISR: A Contrastive Learning and Implicit Stance Reasoning Framework for Misleading Text Detection on Social Media	Jun 5, 2025	Contrastive LearningText Detection	—Unverified	0
The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text	Jun 5, 2025		—Unverified	0
DiCoRe: Enhancing Zero-shot Event Detection via Divergent-Convergent LLM Reasoning	Jun 5, 2025	document understandingEvent Detection	—Unverified	0
Do Large Language Models Judge Error Severity Like Humans?	Jun 5, 2025	Text Generation	—Unverified	0
Dissecting Bias in LLMs: A Mechanistic Interpretability Perspective	Jun 5, 2025	Linguistic Acceptabilitynamed-entity-recognition	—Unverified	0
RELIC: Evaluating Compositional Instruction Following via Language Recognition	Jun 5, 2025	Instruction Following	—Unverified	0
CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection	Jun 5, 2025	HallucinationNatural Language Inference	—Unverified	0
CHANCERY: Evaluating Corporate Governance Reasoning Capabilities in Language Models	Jun 5, 2025	Binary ClassificationLegal Reasoning	—Unverified	0
Agents of Change: Self-Evolving LLM Agents for Strategic Planning	Jun 5, 2025		—Unverified	0
E-bike agents: Large Language Model-Driven E-Bike Accident Analysis and Severity Prediction	Jun 5, 2025	Language ModelingLanguage Modelling	—Unverified	0
Empowering Economic Simulation for Massively Multiplayer Online Games through Generative Agent-Based Modeling	Jun 5, 2025	Decision Making	—Unverified	0
Safe Planning and Policy Optimization via World Model Learning	Jun 5, 2025	continuous-controlContinuous Control	—Unverified	0
Was Residual Penalty and Neural Operators All We Needed for Solving Optimal Control Problems?	Jun 5, 2025	All	—Unverified	0
Fast-DataShapley: Neural Modeling for Training Data Valuation	Jun 5, 2025	Data Valuation	—Unverified	0
Neural MJD: Neural Non-Stationary Merton Jump Diffusion for Time Series Prediction	Jun 5, 2025	Time SeriesTime Series Prediction	—Unverified	0
The Oversmoothing Fallacy: A Misguided Narrative in GNN Research	Jun 5, 2025	Misconceptions	—Unverified	0
Communication Efficient Adaptive Model-Driven Quantum Federated Learning	Jun 5, 2025	Federated Learning	—Unverified	0
Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction	Jun 5, 2025	In-Context Learning	—Unverified	0
Noise-Resistant Label Reconstruction Feature Selection for Partial Multi-Label Learning	Jun 5, 2025	feature selectionMulti-Label Learning	—Unverified	0
The cost of ensembling: is it always worth combining?	Jun 5, 2025	Ensemble LearningTime Series Forecasting	—Unverified	0
Multi-Layer GRPO: Enhancing Reasoning and Self-Correction in Large Language Models	Jun 5, 2025	Mathematical Reasoning	—Unverified	0
Log-Linear Attention	Jun 5, 2025	MambaState Space Models	—Unverified	0
Can Artificial Intelligence Trade the Stock Market?	Jun 5, 2025	Deep Reinforcement Learning	—Unverified	0
Aligning Multimodal Representations through an Information Bottleneck	Jun 5, 2025	Representation Learning	—Unverified	0
Locality Preserving Markovian Transition for Instance Retrieval	Jun 5, 2025	Re-RankingRetrieval	—Unverified	0
FPTQuant: Function-Preserving Transforms for LLM Quantization	Jun 5, 2025	Quantization	—Unverified	0
Semi-Implicit Variational Inference via Kernelized Path Gradient Descent	Jun 5, 2025	Variational Inference	—Unverified	0
Learning Theory of Decentralized Robust Kernel-Based Learning Algorithm	Jun 5, 2025	Learning Theory	—Unverified	0
Learning long range dependencies through time reversal symmetry breaking	Jun 5, 2025	Self-LearningState Space Models	—Unverified	0
How to Unlock Time Series Editing? Diffusion-Driven Approach with Multi-Grained Control	Jun 5, 2025	DenoisingTime Series	—Unverified	0
Generalizable, real-time neural decoding with hybrid state-space models	Jun 5, 2025	GPUState Space Models	—Unverified	0
Just a Scratch: Enhancing LLM Capabilities for Self-harm Detection through Intent Differentiation and Emoji Interpretation	Jun 5, 2025	Multi-Task LearningSensitivity	—Unverified	0
Ignoring Directionality Leads to Compromised Graph Neural Network Explanations	Jun 5, 2025	Decision MakingGraph Neural Network	—Unverified	0
Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets	Jun 5, 2025		CodeCode Available	2
ECoRAG: Evidentiality-guided Compression for Long Context RAG	Jun 5, 2025	Answer GenerationOpen-Domain Question Answering	CodeCode Available	1
Safe: Enhancing Mathematical Reasoning in Large Language Models via Retrospective Step-aware Formal Verification	Jun 5, 2025	Automated Theorem ProvingHallucination	CodeCode Available	1