The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 15801–15850 of 474278 papers

Title	Date	Tasks	Status	Hype
"Alexa, can you forget me?" Machine Unlearning Benchmark in Spoken Language Understanding	May 21, 2025	Machine UnlearningSpoken Language Understanding	CodeCode Available	1
Gated Integration of Low-Rank Adaptation for Continual Learning of Language Models	May 21, 2025	Continual Learningparameter-efficient fine-tuning	CodeCode Available	1
CRAKEN: Cybersecurity LLM Agent with Knowledge-Based Execution	May 21, 2025	Large Language ModelTask Planning	CodeCode Available	1
A Federated Splitting Framework for LLMs: Security, Efficiency, and Adaptability	May 21, 2025		CodeCode Available	1
Satellites Reveal Mobility: A Commuting Origin-destination Flow Generator for Global Cities	May 21, 2025		CodeCode Available	1
MGStream: Motion-aware 3D Gaussian for Streamable Dynamic Scene Reconstruction	May 20, 2025	3DGSComputational Efficiency	CodeCode Available	1
Learning Concept-Driven Logical Rules for Interpretable and Generalizable Medical Image Classification	May 20, 2025	image-classificationImage Classification	CodeCode Available	1
DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery	May 20, 2025	Drug Discovery	CodeCode Available	1
Do Language Models Use Their Depth Efficiently?	May 20, 2025		CodeCode Available	1
ABBA: Highly Expressive Hadamard Product Adaptation for Large Language Models	May 20, 2025	parameter-efficient fine-tuning	CodeCode Available	1
Safety Subspaces are Not Distinct: A Fine-Tuning Case Study	May 20, 2025	Safety Alignment	CodeCode Available	1
EEG-to-Text Translation: A Model for Deciphering Human Brain Activity	May 20, 2025	DecoderEEG	CodeCode Available	1
Dynadiff: Single-stage Decoding of Images from Continuously Evolving fMRI	May 20, 2025	Image Reconstruction	CodeCode Available	1
Large Language Models for Data Synthesis	May 20, 2025		CodeCode Available	1
UniSim: A Unified Simulator for Time-Coarsened Dynamics of Biomolecules	May 20, 2025		CodeCode Available	1
Let's Verify Math Questions Step by Step	May 20, 2025	MathMathematical Reasoning	CodeCode Available	1
TxPert: Leveraging Biochemical Relationships for Out-of-Distribution Transcriptomic Perturbation Prediction	May 20, 2025	BenchmarkingKnowledge Graphs	CodeCode Available	1
Physics-Guided Learning of Meteorological Dynamics for Weather Downscaling and Forecasting	May 20, 2025	Deep LearningWeather Forecasting	CodeCode Available	1
FlashKAT: Understanding and Addressing Performance Bottlenecks in the Kolmogorov-Arnold Transformer	May 20, 2025		CodeCode Available	1
Social Sycophancy: A Broader Understanding of LLM Sycophancy	May 20, 2025		CodeCode Available	1
Linear Control of Test Awareness Reveals Differential Compliance in Reasoning Models	May 20, 2025	Safety Alignment	CodeCode Available	1
TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning	May 20, 2025	MathReinforcement Learning (RL)	CodeCode Available	1
U-SAM: An audio language Model for Unified Speech, Audio, and Music Understanding	May 20, 2025	cross-modal alignmentLanguage Modeling	CodeCode Available	1
Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models	May 20, 2025	Instruction FollowingMathematical Reasoning	CodeCode Available	1
LoVR: A Benchmark for Long Video Retrieval in Multimodal Contexts	May 20, 2025	Caption GenerationRetrieval	CodeCode Available	1
Speculative Decoding Reimagined for Multimodal Large Language Models	May 20, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Internal Chain-of-Thought: Empirical Evidence for Layer-wise Subtask Scheduling in LLMs	May 20, 2025	Scheduling	CodeCode Available	1
A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations	May 20, 2025	SentenceSentence Classification	CodeCode Available	1
DIFF: Dual Side-Information Filtering and Fusion for Sequential Recommendation	May 20, 2025	Sequential Recommendation	CodeCode Available	1
CLEVER: A Curated Benchmark for Formally Verified Code Generation	May 20, 2025	Code GenerationProgram Synthesis	CodeCode Available	1
Invisible Entropy: Towards Safe and Efficient Low-Entropy LLM Watermarking	May 20, 2025	HumanEvalmbpp	CodeCode Available	1
KERL: Knowledge-Enhanced Personalized Recipe Recommendation using Large Language Models	May 20, 2025	Food recommendationKnowledge Graphs	CodeCode Available	1
Diving into the Fusion of Monocular Priors for Generalized Stereo Matching	May 20, 2025	Stereo Matching	CodeCode Available	1
Reasoning Models Better Express Their Confidence	May 20, 2025	In-Context Learning	CodeCode Available	1
Deep Koopman operator framework for causal discovery in nonlinear dynamical systems	May 20, 2025	Causal Discovery	CodeCode Available	1
Electrostatics from Laplacian Eigenbasis for Neural Network Interatomic Potentials	May 20, 2025		CodeCode Available	1
DisastIR: A Comprehensive Information Retrieval Benchmark for Disaster Management	May 20, 2025	Decision MakingInformation Retrieval	CodeCode Available	1
Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning	May 20, 2025	Answer GenerationRAG	CodeCode Available	1
Training-Free Watermarking for Autoregressive Image Generation	May 20, 2025	Image Generation	CodeCode Available	1
Quaff: Quantized Parameter-Efficient Fine-Tuning under Outlier Spatial Stability Hypothesis	May 20, 2025	GPUparameter-efficient fine-tuning	CodeCode Available	1
Neural Incompatibility: The Unbridgeable Gap of Cross-Scale Parametric Knowledge Transfer in Large Language Models	May 20, 2025	Transfer Learning	CodeCode Available	1
DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models	May 20, 2025	BenchmarkingDiagnostic	CodeCode Available	1
RADAR: Enhancing Radiology Report Generation with Supplementary Knowledge Injection	May 20, 2025		CodeCode Available	1
R2MED: A Benchmark for Reasoning-Driven Medical Retrieval	May 20, 2025	DiagnosticRe-Ranking	CodeCode Available	1
WebNovelBench: Placing LLM Novelists on the Web Novel Distribution	May 20, 2025	DiversityStory Generation	CodeCode Available	1
Decoupling Classifier for Boosting Few-shot Object Detection and Instance Segmentation	May 20, 2025	Few-Shot Object DetectionInstance Segmentation	CodeCode Available	1
Unlocking the Power of SAM 2 for Few-Shot Segmentation	May 20, 2025	SegmentationVideo Segmentation	CodeCode Available	1
PRL: Prompts from Reinforcement Learning	May 20, 2025	Prompt Engineeringreinforcement-learning	CodeCode Available	1
ConspEmoLLM-v2: A robust and stable model to detect sentiment-transformed conspiracy theories	May 20, 2025	Misinformation	CodeCode Available	1
Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning	May 20, 2025		CodeCode Available	1