The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 20251–20300 of 474278 papers

Title	Date	Tasks	Status	Hype
SPA-RL: Reinforcing LLM Agents via Stepwise Progress Attribution	May 27, 2025	Reinforcement Learning (RL)	CodeCode Available	2
CHIMERA: A Knowledge Base of Idea Recombination in Scientific Literature	May 27, 2025		CodeCode Available	0
Leveraging Large Language Models in Visual Speech Recognition: Model Scaling, Context-Aware Decoding, and Iterative Polishing	May 27, 2025	speech-recognitionSpeech Recognition	—Unverified	0
CNVSRC 2024: The Second Chinese Continuous Visual Speech Recognition Challenge	May 27, 2025	Diversityspeech-recognition	—Unverified	0
AbsoluteNet: A Deep Learning Neural Network to Classify Cerebral Hemodynamic Responses of Auditory Processing	May 27, 2025	Binary ClassificationBrain Computer Interface	—Unverified	0
GaussianFusion: Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving	May 27, 2025	Autonomous DrivingBench2Drive	CodeCode Available	0
Moment kernels: a simple and scalable approach for equivariance to rotations and reflections in deep convolutional networks	May 27, 2025	Cell SegmentationImage Registration	—Unverified	0
DynamicVL: Benchmarking Multimodal Large Language Models for Dynamic City Understanding	May 27, 2025	BenchmarkingChange Detection	—Unverified	0
Sparsified State-Space Models are Efficient Highway Networks	May 27, 2025	MambaState Space Models	CodeCode Available	0
Empowering Vector Graphics with Consistently Arbitrary Viewing and View-dependent Visibility	May 27, 2025	3DGSScheduling	CodeCode Available	1
ConText-CIR: Learning from Concepts in Text for Composed Image Retrieval	May 27, 2025	Image RetrievalRetrieval	CodeCode Available	1
CogniBench: A Legal-inspired Framework and Dataset for Assessing Cognitive Faithfulness of Large Language Models	May 27, 2025	HallucinationLanguage Modeling	CodeCode Available	1
DLP: Dynamic Layerwise Pruning in Large Language Models	May 27, 2025	parameter-efficient fine-tuning	CodeCode Available	0
Emotion-aware Dual Cross-Attentive Neural Network with Label Fusion for Stance Detection in Misinformative Social Media Content	May 27, 2025	Metric LearningMisinformation	CodeCode Available	0
Calibrating LLMs for Text-to-SQL Parsing by Leveraging Sub-clause Frequencies	May 27, 2025	SQL ParsingText to SQL	—Unverified	0
MARS-Bench: A Multi-turn Athletic Real-world Scenario Benchmark for Dialogue Evaluation	May 27, 2025	Dialogue Evaluation	—Unverified	0
LayerIF: Estimating Layer Quality for Large Language Models using Influence Functions	May 27, 2025	Outlier Detection	—Unverified	0
multivariateGPT: a decoder-only transformer for multivariate categorical and numeric data	May 27, 2025	Decoder	—Unverified	0
Do We Know What LLMs Don't Know? A Study of Consistency in Knowledge Probing	May 27, 2025	Knowledge Probing	—Unverified	0
DP-RTFL: Differentially Private Resilient Temporal Federated Learning for Trustworthy AI in Regulated Industries	May 27, 2025	Federated LearningPrivacy Preserving	CodeCode Available	0
AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage	May 27, 2025		CodeCode Available	1
Born a Transformer -- Always a Transformer?	May 27, 2025		CodeCode Available	0
DenseLoRA: Dense Low-Rank Adaptation of Large Language Models	May 27, 2025	Decoder	CodeCode Available	0
MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs	May 27, 2025	SpecificityText Generation	CodeCode Available	0
LLM-Driven E-Commerce Marketing Content Optimization: Balancing Creativity and Conversion	May 27, 2025	DiversityMarketing	—Unverified	0
MedOrchestra: A Hybrid Cloud-Local LLM Approach for Clinical Data Interpretation	May 27, 2025	Privacy Preserving	—Unverified	0
Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment	May 27, 2025	Adversarial AttackClustering	CodeCode Available	2
ReassembleNet: Learnable Keypoints and Diffusion for 2D Fresco Reconstruction	May 27, 2025	Molecular DockingPose Estimation	—Unverified	0
SANSA: Unleashing the Hidden Semantics in SAM2 for Few-Shot Segmentation	May 27, 2025	Object TrackingSegmentation	CodeCode Available	2
Minute-Long Videos with Dual Parallelisms	May 27, 2025	DenoisingGPU	CodeCode Available	1
Attribute-Efficient PAC Learning of Sparse Halfspaces with Constant Malicious Noise Rate	May 27, 2025	AttributeLearning Theory	—Unverified	0
3D-UIR: 3D Gaussian for Underwater 3D Scene Reconstruction via Physics Based Appearance-Medium Decoupling	May 27, 2025	3DGS3D Scene Reconstruction	—Unverified	0
Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks	May 27, 2025	3D Scene ReconstructionDiagnostic	—Unverified	0
Compositional Scene Understanding through Inverse Generative Modeling	May 27, 2025	Scene Understanding	—Unverified	0
Hierarchical Instruction-aware Embodied Visual Tracking	May 27, 2025	Action GenerationPosition	—Unverified	0
VLM Can Be a Good Assistant: Enhancing Embodied Visual Tracking with Self-Improving Vision-Language Models	May 27, 2025	Spatial ReasoningVisual Tracking	—Unverified	0
Geometric Feature Prompting of Image Segmentation Models	May 27, 2025	Image SegmentationSegmentation	—Unverified	0
MT-Mol:Multi Agent System with Tool-based Reasoning for Molecular Optimization	May 27, 2025	Miscellaneous	—Unverified	0
Multimodal Federated Learning: A Survey through the Lens of Different FL Paradigms	May 27, 2025	Federated Learning	—Unverified	0
DeCAF: Decentralized Consensus-And-Factorization for Low-Rank Adaptation of Foundation Models	May 27, 2025	Federated Learning	—Unverified	0
Unified Alignment Protocol: Making Sense of the Unlabeled Data in New Domains	May 27, 2025	Domain GeneralizationFederated Learning	—Unverified	0
Is Hyperbolic Space All You Need for Medical Anomaly Detection?	May 27, 2025	AllAnomaly Detection	—Unverified	0
Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction	May 27, 2025	3D GenerationImage Generation	—Unverified	0
rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset	May 27, 2025		CodeCode Available	5
Rethinking Chunk Size For Long-Document Retrieval: A Multi-Dataset Analysis	May 27, 2025	ChunkingInformation Retrieval	CodeCode Available	0
Improving LLM-based Global Optimization with Search Space Partitioning	May 27, 2025	Bayesian Optimizationglobal-optimization	CodeCode Available	0
Automatic Transmission for LLM Tiers: Optimizing Cost and Accuracy in Large Language Models	May 27, 2025	valid	CodeCode Available	0
CellCLAT: Preserving Topology and Trimming Redundancy in Self-Supervised Cellular Contrastive Learning	May 27, 2025	Contrastive LearningGraph Learning	CodeCode Available	0
What is Adversarial Training for Diffusion Models?	May 27, 2025	Memorization	—Unverified	0
NatADiff: Adversarial Boundary Guidance for Natural Adversarial Diffusion	May 27, 2025	Denoising	—Unverified	0