The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 19401–19450 of 474278 papers

Title	Date	Tasks	Status	Hype
Actor-Critic based Online Data Mixing For Language Model Pre-Training	May 29, 2025	HumanEvalLanguage Modeling	—Unverified	0
Reinforcement Learning for Better Verbalized Confidence in Long-Form Generation	May 29, 2025	FormHallucination	—Unverified	0
Probing Association Biases in LLM Moderation Over-Sensitivity	May 29, 2025	Sensitivity	—Unverified	0
ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents	May 29, 2025		CodeCode Available	0
BIRD: Behavior Induction via Representation-structure Distillation	May 29, 2025	Continual LearningFairness	—Unverified	0
TSENOR: Highly-Efficient Algorithm for Finding Transposable N:M Sparse Masks	May 29, 2025	GPUNetwork Pruning	—Unverified	0
Information Structure in Mappings: An Approach to Learning, Representation, and Generalisation	May 29, 2025	Multi-agent Reinforcement Learning	—Unverified	0
VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL	May 29, 2025	Arithmetic ReasoningImage Generation	—Unverified	0
Multi-output Classification using a Cross-talk Architecture for Compound Fault Diagnosis of Motors in Partially Labeled Condition	May 29, 2025	DiagnosticDomain Adaptation	—Unverified	0
Large Language Model Meets Constraint Propagation	May 29, 2025	Language ModelingLanguage Modelling	—Unverified	0
From Images to Signals: Are Large Vision Models Useful for Time Series Analysis?	May 29, 2025	Time SeriesTime Series Analysis	—Unverified	0
MedPAIR: Measuring Physicians and AI Relevance Alignment in Medical Question Answering	May 29, 2025	Medical Question AnsweringQuestion Answering	—Unverified	0
Bridging Source and Target Domains via Link Prediction for Unsupervised Domain Adaptation on Graphs	May 29, 2025	Domain AdaptationLink Prediction	—Unverified	0
Measure gradients, not activations! Enhancing neuronal activity in deep reinforcement learning	May 29, 2025	Deep Reinforcement LearningMuJoCo	—Unverified	0
Simplifying Bayesian Optimization Via In-Context Direct Optimum Sampling	May 29, 2025	Bayesian OptimizationThompson Sampling	—Unverified	0
Adaptive Deadline and Batch Layered Synchronized Federated Learning	May 29, 2025	Federated Learning	—Unverified	0
The Rich and the Simple: On the Implicit Bias of Adam and SGD	May 29, 2025	Binary Classification	—Unverified	0
Towards disentangling the contributions of articulation and acoustics in multimodal phoneme recognition	May 29, 2025	Phoneme Recognition	—Unverified	0
Conformal Object Detection by Sequential Risk Control	May 29, 2025	Conformal PredictionObject	—Unverified	0
One Task Vector is not Enough: A Large-Scale Study for In-Context Learning	May 29, 2025	In-Context Learning	—Unverified	0
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving	May 29, 2025	Code Generation	—Unverified	0
Adaptive finite element type decomposition of Gaussian processes	May 29, 2025	Gaussian Processes	—Unverified	0
MaskAdapt: Unsupervised Geometry-Aware Domain Adaptation Using Multimodal Contextual Learning and RGB-Depth Masking	May 29, 2025	Domain AdaptationSemantic Segmentation	—Unverified	0
Scaling up the think-aloud method	May 29, 2025	Mathematical Reasoning	CodeCode Available	0
Primal-Dual Neural Algorithmic Reasoning	May 29, 2025		CodeCode Available	0
3DGEER: Exact and Efficient Volumetric Rendering with 3D Gaussians	May 29, 2025	3DGSNeural Rendering	CodeCode Available	1
NeuronTune: Towards Self-Guided Spurious Bias Mitigation	May 29, 2025		CodeCode Available	0
DeepTopoNet: A Framework for Subglacial Topography Estimation on the Greenland Ice Sheets	May 29, 2025		CodeCode Available	0
BeaverTalk: Oregon State University's IWSLT 2025 Simultaneous Speech Translation System	May 29, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
FLAT-LLM: Fine-grained Low-rank Activation Space Transformation for Large Language Model Compression	May 29, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
ScaleLong: A Multi-Timescale Benchmark for Long Video Understanding	May 29, 2025	AvgVideo Understanding	CodeCode Available	0
CNN-LSTM Hybrid Model for AI-Driven Prediction of COVID-19 Severity from Spike Sequences and Clinical Data	May 29, 2025	Feature EngineeringRobust classification	CodeCode Available	0
The Surprising Soupability of Documents in State Space Models	May 29, 2025	State Space Models	—Unverified	0
Confidential Guardian: Cryptographically Prohibiting the Abuse of Model Abstention	May 29, 2025		CodeCode Available	0
GenIC: An LLM-Based Framework for Instance Completion in Knowledge Graphs	May 29, 2025	Knowledge Graph CompletionKnowledge Graphs	CodeCode Available	0
Large Language Models for Controllable Multi-property Multi-objective Molecule Optimization	May 29, 2025	Drug Design	CodeCode Available	0
Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs	May 29, 2025	BenchmarkingFairness	CodeCode Available	0
Position: The Future of Bayesian Prediction Is Prior-Fitted	May 29, 2025	Bayesian InferencePosition	—Unverified	0
ADG: Ambient Diffusion-Guided Dataset Recovery for Corruption-Robust Offline Reinforcement Learning	May 29, 2025	DenoisingMuJoCo	—Unverified	0
Multi-Modal View Enhanced Large Vision Models for Long-Term Time Series Forecasting	May 29, 2025	Inductive BiasTime Series	—Unverified	0
OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation	May 29, 2025	Large Language Model	CodeCode Available	11
Test-Time Training Done Right	May 29, 2025	2kNovel View Synthesis	—Unverified	0
BiBLDR: Bidirectional Behavior Learning for Drug Repositioning	May 29, 2025		CodeCode Available	0
Transforming Podcast Preview Generation: From Expert Models to LLM-Based Systems	May 29, 2025	Feature Engineering	—Unverified	0
Searching Neural Architectures for Sensor Nodes on IoT Gateways	May 29, 2025	Fault Diagnosis	—Unverified	0
KGMark: A Diffusion Watermark for Knowledge Graphs	May 29, 2025	Knowledge Graphs	CodeCode Available	0
OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities	May 29, 2025		CodeCode Available	0
BioCLIP 2: Emergent Properties from Scaling Hierarchical Contrastive Learning	May 29, 2025	Contrastive Learning	CodeCode Available	0
Retrieval Augmented Generation based Large Language Models for Causality Mining	May 29, 2025	graph constructionInformation Retrieval	CodeCode Available	0
Thompson Sampling in Online RLHF with General Function Approximation	May 29, 2025	Thompson Sampling	—Unverified	0