The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 19951–20000 of 474278 papers

Title	Date	Tasks	Status	Hype
Navigating the Latent Space Dynamics of Neural Models	May 28, 2025	Memorization	—Unverified	0
CLUE: Neural Networks Calibration via Learning Uncertainty-Error alignment	May 28, 2025	Language ModelingLanguage Modelling	—Unverified	0
Scaling Offline RL via Efficient and Expressive Shortcut Models	May 28, 2025	Offline RLreinforcement-learning	—Unverified	0
Highly Efficient and Effective LLMs with Multi-Boolean Architectures	May 28, 2025	BinarizationQuantization	—Unverified	0
Structured Memory Mechanisms for Stable Context Representation in Large Language Models	May 28, 2025	Question AnsweringText Generation	—Unverified	0
What Has Been Lost with Synthetic Evaluation?	May 28, 2025	NegationReading Comprehension	—Unverified	0
ER-REASON: A Benchmark Dataset for LLM-Based Clinical Reasoning in the Emergency Room	May 28, 2025	Medical Question AnsweringQuestion Answering	—Unverified	0
Improving QA Efficiency with DistilBERT: Fine-Tuning and Inference on mobile Intel CPUs	May 28, 2025	Computational EfficiencyCPU	—Unverified	0
VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models	May 28, 2025	Language ModelingLanguage Modelling	—Unverified	0
Enhancing Study-Level Inference from Clinical Trial Papers via RL-based Numeric Reasoning	May 28, 2025	Reinforcement Learning (RL)	—Unverified	0
Design and testing of an agent chatbot supporting decision making with public transport data	May 28, 2025	ChatbotDecision Making	—Unverified	0
Predicting Human Depression with Hybrid Data Acquisition utilizing Physical Activity Sensing and Social Media Feeds	May 28, 2025	Activity RecognitionSentiment Analysis	—Unverified	0
From Controlled Scenarios to Real-World: Cross-Domain Degradation Pattern Matching for All-in-One Image Restoration	May 28, 2025	AllContrastive Learning	—Unverified	0
Seeing the Threat: Vulnerabilities in Vision-Language Models to Adversarial Attack	May 28, 2025	Adversarial AttackSafety Alignment	—Unverified	0
Event-based Egocentric Human Pose Estimation in Dynamic Environment	May 28, 2025	Head Pose EstimationMotion Segmentation	—Unverified	0
SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning	May 28, 2025	Image SegmentationMultimodal Reasoning	—Unverified	0
InfoSAM: Fine-Tuning the Segment Anything Model from An Information-Theoretic Perspective	May 28, 2025	parameter-efficient fine-tuningTransfer Learning	—Unverified	0
OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning	May 28, 2025	Anomaly DetectionMultimodal Reasoning	—Unverified	0
Adversarially Robust AI-Generated Image Detection for Free: An Information Theoretic Perspective	May 28, 2025	Adversarial DefenseAttribute	—Unverified	0
Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing	May 28, 2025	Instruction Followingknowledge editing	—Unverified	0
Rethinking Gradient-based Adversarial Attacks on Point Cloud Classification	May 28, 2025	3D Point Cloud ClassificationPoint Cloud Classification	—Unverified	0
TabXEval: Why this is a Bad Table? An eXhaustive Rubric for Table Evaluation	May 28, 2025	Specificity	—Unverified	0
LLMs Struggle to Reject False Presuppositions when Misinformation Stakes are High	May 28, 2025	Misinformation	—Unverified	0
A Survey on Training-free Open-Vocabulary Semantic Segmentation	May 28, 2025	Multi-modal ClassificationOpen Vocabulary Semantic Segmentation	—Unverified	0
Yambda-5B -- A Large-Scale Multi-modal Dataset for Ranking And Retrieval	May 28, 2025	BenchmarkingRecommendation Systems	—Unverified	0
BiasFilter: An Inference-Time Debiasing Framework for Large Language Models	May 28, 2025	Fairness	—Unverified	0
Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation	May 28, 2025	Human AnimationInstruction Following	CodeCode Available	7
Speculative Decoding Meets Quantization: Compatibility Evaluation and Hierarchical Framework Design	May 28, 2025	GPUQuantization	CodeCode Available	1
Improving Continual Pre-training Through Seamless Data Packing	May 28, 2025		CodeCode Available	0
Logical Consistency is Vital: Neural-Symbolic Information Retrieval for Negative-Constraint Queries	May 28, 2025	Information RetrievalRetrieval	CodeCode Available	0
MoRE: A Mixture of Low-Rank Experts for Adaptive Multi-Task Learning	May 28, 2025	Multi-Task Learningparameter-efficient fine-tuning	CodeCode Available	0
StarBASE-GP: Biologically-Guided Automated Machine Learning for Genotype-to-Phenotype Association Analysis	May 28, 2025	Benchmarking	CodeCode Available	0
MEDAL: A Framework for Benchmarking LLMs as Multilingual Open-Domain Chatbots and Dialogue Evaluators	May 28, 2025	BenchmarkingChatbot	CodeCode Available	0
LiTEx: A Linguistic Taxonomy of Explanations for Understanding Within-Label Variation in Natural Language Inference	May 28, 2025	Explanation GenerationNatural Language Inference	CodeCode Available	0
OWL: Probing Cross-Lingual Recall of Memorized Texts via World Literature	May 28, 2025	Memorization	CodeCode Available	0
When Does Neuroevolution Outcompete Reinforcement Learning in Transfer Learning Tasks?	May 28, 2025	reinforcement-learningReinforcement Learning	CodeCode Available	0
Unraveling LoRA Interference: Orthogonal Subspaces for Robust Model Merging	May 28, 2025		CodeCode Available	0
RC-AutoCalib: An End-to-End Radar-Camera Automatic Calibration Network	May 28, 2025	Camera Auto-CalibrationCamera Calibration	CodeCode Available	0
ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark	May 28, 2025	Math	CodeCode Available	0
Adapting Segment Anything Model for Power Transmission Corridor Hazard Segmentation	May 28, 2025	Semantic Segmentation	CodeCode Available	0
The WHY in Business Processes: Unification of Causal Process Models	May 28, 2025	Missing Values	—Unverified	0
Automatic Scene Generation: State-of-the-Art Techniques, Models, Datasets, Challenges, and Future Prospects	May 28, 2025	3D GenerationImage to 3D	—Unverified	0
Talent or Luck? Evaluating Attribution Bias in Large Language Models	May 28, 2025	Fairness	CodeCode Available	0
Towards a More Generalized Approach in Open Relation Extraction	May 28, 2025	ClusteringRelation	CodeCode Available	0
Is Noise Conditioning Necessary? A Unified Theory of Unconditional Graph Diffusion Models	May 28, 2025	AttributeDenoising	—Unverified	0
Budget-Adaptive Adapter Tuning in Orthogonal Subspaces for Continual Learning in LLMs	May 28, 2025	Continual Learning	—Unverified	0
Decomposing Elements of Problem Solving: What "Math" Does RL Teach?	May 28, 2025	MathMathematical Problem-Solving	CodeCode Available	0
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start	May 28, 2025	MathMultimodal Reasoning	CodeCode Available	1
How Do Diffusion Models Improve Adversarial Robustness?	May 28, 2025	Adversarial PurificationAdversarial Robustness	—Unverified	0
SplitLoRA: Balancing Stability and Plasticity in Continual Learning Through Gradient Space Splitting	May 28, 2025	Continual Learning	—Unverified	0