The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 16151–16200 of 474278 papers

Title	Date	Tasks	Status	Hype
Beyond the Battlefield: Framing Analysis of Media Coverage in Conflict Reporting	Jun 12, 2025	Articles	—Unverified	0
Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models	Jun 12, 2025	FairnessMMLU	—Unverified	0
Reliable Reasoning Path: Distilling Effective Guidance for LLM Reasoning with Knowledge Graphs	Jun 12, 2025	Knowledge Graphs	—Unverified	0
Improving Named Entity Transcription with Contextual LLM-based Revision	Jun 12, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Slimming Down LLMs Without Losing Their Minds	Jun 12, 2025	Computational EfficiencyGSM8K	—Unverified	0
Magistral	Jun 12, 2025	Instruction FollowingReinforcement Learning (RL)	—Unverified	0
Time-IMM: A Dataset and Benchmark for Irregular Multimodal Multivariate Time Series	Jun 12, 2025	Irregular Time SeriesTime Series	—Unverified	0
Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning	Jun 12, 2025	AttributeMultimodal Reasoning	—Unverified	0
TableRAG: A Retrieval Augmented Generation Framework for Heterogeneous Document Reasoning	Jun 12, 2025	Answer GenerationChunking	CodeCode Available	2
Probably Approximately Correct Labels	Jun 12, 2025	Protein Foldingtext annotation	CodeCode Available	1
ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark	Jun 12, 2025		CodeCode Available	2
Geometric Jensen-Shannon Divergence Between Gaussian Measures On Hilbert Space	Jun 12, 2025	valid	—Unverified	0
Graph-MLLM: Harnessing Multimodal Large Language Models for Multimodal Graph Learning	Jun 12, 2025	Graph LearningIn-Context Learning	—Unverified	0
Computational Complexity of Statistics: New Insights from Low-Degree Polynomials	Jun 12, 2025	Survey	—Unverified	0
Air in Your Neighborhood: Fine-Grained AQI Forecasting Using Mobile Sensor Data	Jun 12, 2025		CodeCode Available	0
PyLO: Towards Accessible Learned Optimizers in PyTorch	Jun 12, 2025		CodeCode Available	1
TaxoAdapt: Aligning LLM-Based Multidimensional Taxonomy Construction to Evolving Research Corpora	Jun 12, 2025	General Knowledge	CodeCode Available	1
Burn After Reading: Do Multimodal Large Language Models Truly Capture Order of Events in Image Sequences?	Jun 12, 2025	SentenceSentence Ordering	CodeCode Available	0
Mitigating Negative Interference in Multilingual Sequential Knowledge Editing through Null-Space Constraints	Jun 12, 2025	knowledge editing	CodeCode Available	0
Deep Learning-Based Digitization of Overlapping ECG Images with Open-Source Python Code	Jun 12, 2025		CodeCode Available	0
MSSDF: Modality-Shared Self-supervised Distillation for High-Resolution Multi-modal Remote Sensing Image Learning	Jun 11, 2025		CodeCode Available	0
GLD-Road:A global-local decoding road network extraction model for remote sensing images	Jun 11, 2025		CodeCode Available	0
Fast Monte Carlo Tree Diffusion: 100x Speedup via Parallel Sparse Planning	Jun 11, 2025	DenoisingTrajectory Planning	—Unverified	0
Gaussian Herding across Pens: An Optimal Transport Perspective on Global Gaussian Reduction for 3DGS	Jun 11, 2025	3DGSNeural Rendering	—Unverified	0
Alzheimer's Dementia Detection Using Perplexity from Paired Large Language Models	Jun 11, 2025	Data AugmentationDecision Making	—Unverified	0
Bench to the Future: A Pastcasting Benchmark for Forecasting Agents	Jun 11, 2025	Benchmarking	—Unverified	0
HEIST: A Graph Foundation Model for Spatial Transcriptomics and Proteomics Data	Jun 11, 2025	Contrastive LearningImputation	—Unverified	0
ADAgent: LLM Agent for Alzheimer's Disease Analysis with Collaborative Coordinator	Jun 11, 2025	AI AgentLarge Language Model	—Unverified	0
HI-SQL: Optimizing Text-to-SQL Systems through Dynamic Hint Integration	Jun 11, 2025	Hint GenerationText to SQL	—Unverified	0
RePO: Replay-Enhanced Policy Optimization	Jun 11, 2025	MathMathematical Reasoning	CodeCode Available	1
SANGAM: SystemVerilog Assertion Generation via Monte Carlo Tree Self-Refine	Jun 11, 2025		CodeCode Available	0
The NordDRG AI Benchmark for Large Language Models	Jun 11, 2025		CodeCode Available	0
Med-REFL: Medical Reasoning Enhancement via Self-Corrected Fine-grained Reflection	Jun 11, 2025	Medical Question AnsweringMedQA	CodeCode Available	0
Enhancing Bagging Ensemble Regression with Data Integration for Time Series-Based Diabetes Prediction	Jun 11, 2025	Data IntegrationDiabetes Prediction	—Unverified	0
ICE-ID: A Novel Historical Census Data Benchmark Comparing NARS against LLMs, \& a ML Ensemble on Longitudinal Identity Resolution	Jun 11, 2025	Benchmarking	—Unverified	0
CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios	Jun 11, 2025		CodeCode Available	1
LLM-Driven Data Generation and a Novel Soft Metric for Evaluating Text-to-SQL in Aviation MRO	Jun 11, 2025	Text to SQLText-To-SQL	—Unverified	0
S2ST-Omni: An Efficient and Scalable Multilingual Speech-to-Speech Translation Framework via Seamless Speech-Text Alignment and Streaming Speech Generation	Jun 11, 2025	Reading ComprehensionSpeech Synthesis	—Unverified	0
SLRNet: A Real-Time LSTM-Based Sign Language Recognition System	Jun 11, 2025	Gesture RecognitionSign Language Recognition	CodeCode Available	0
Autonomous Computer Vision Development with Agentic AI	Jun 11, 2025	Medical Image Analysis	CodeCode Available	0
Vector Representations of Vessel Trees	Jun 11, 2025	GPUvalid	—Unverified	0
Self-Calibrating BCIs: Ranking and Recovery of Mental Targets Without Labels	Jun 11, 2025	EEG	—Unverified	0
Analysis of Anonymous User Interaction Relationships and Prediction of Advertising Feedback Based on Graph Neural Network	Jun 11, 2025	Graph Neural Network	—Unverified	0
Tracking of Intermittent and Moving Speakers : Dataset and Metrics	Jun 11, 2025	Position	—Unverified	0
FARCLUSS: Fuzzy Adaptive Rebalancing and Contrastive Uncertainty Learning for Semi-Supervised Semantic Segmentation	Jun 11, 2025	Semantic SegmentationSemi-Supervised Semantic Segmentation	CodeCode Available	0
ScholarSearch: Benchmarking Scholar Searching Ability of LLMs	Jun 11, 2025	BenchmarkingInformation Retrieval	—Unverified	0
Mutual-Supervised Learning for Sequential-to-Parallel Code Translation	Jun 11, 2025	Code TranslationGPU	CodeCode Available	1
Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression	Jun 11, 2025	Image Generation	CodeCode Available	2
Quantifying Data Requirements for EEG Independent Component Analysis Using AMICA	Jun 11, 2025	EEG	—Unverified	0
Eigenvalue-Based Detection in MIMO Systems for Integrated Sensing and Communication	Jun 11, 2025	Integrated sensing and communicationISAC	—Unverified	0