The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 20201–20250 of 474278 papers

Title	Date	Tasks	Status	Hype
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes	Oct 22, 2024	GSM8KLanguage Modeling	CodeCode Available	1
Joint Point Cloud Upsampling and Cleaning with Octree-based CNNs	Oct 22, 2024	point cloud upsampling	CodeCode Available	1
Non-myopic Generation of Language Models for Reasoning and Planning	Oct 22, 2024	Computational EfficiencyLanguage Modelling	CodeCode Available	1
Automated Spinal MRI Labelling from Reports Using a Large Language Model	Oct 22, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
ETHIC: Evaluating Large Language Models on Long-Context Tasks with High Information Coverage	Oct 22, 2024		CodeCode Available	1
TopoDiffusionNet: A Topology-aware Diffusion Model	Oct 22, 2024	Denoisingmodel	CodeCode Available	1
Do Vision-Language Models Represent Space and How? Evaluating Spatial Frame of Reference Under Ambiguities	Oct 22, 2024	Spatial Reasoning	CodeCode Available	1
Fair Bilevel Neural Network (FairBiNN): On Balancing fairness and accuracy via Stackelberg Equilibrium	Oct 21, 2024	Bilevel OptimizationFairness	CodeCode Available	1
Residual vector quantization for KV cache compression in large language model	Oct 21, 2024	Audio CompressionLanguage Modeling	CodeCode Available	1
START: A Generalized State Space Model with Saliency-Driven Token-Aware Transformation	Oct 21, 2024	Domain GeneralizationMamba	CodeCode Available	1
SeisLM: a Foundation Model for Seismic Waveforms	Oct 21, 2024	Event DetectionLanguage Modeling	CodeCode Available	1
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning	Oct 21, 2024	Attribute	CodeCode Available	1
PROMPTHEUS: A Human-Centered Pipeline to Streamline SLRs with LLMs	Oct 21, 2024		CodeCode Available	1
Developing Retrieval Augmented Generation (RAG) based LLM Systems from PDFs: An Experience Report	Oct 21, 2024	Information RetrievalRAG	CodeCode Available	1
QuickBind: A Light-Weight And Interpretable Molecular Docking Model	Oct 21, 2024	Drug DiscoveryMolecular Docking	CodeCode Available	1
Scalability of memorization-based machine unlearning	Oct 21, 2024	Machine UnlearningMemorization	CodeCode Available	1
Elucidating the design space of language models for image generation	Oct 21, 2024	Image GenerationText Generation	CodeCode Available	1
ARTS: Semi-Analytical Regressor using Disentangled Skeletal Representations for Human Mesh Recovery from Videos	Oct 21, 2024	3D Human Pose EstimationDisentanglement	CodeCode Available	1
Bayesian scaling laws for in-context learning	Oct 21, 2024	In-Context LearningSafety Alignment	CodeCode Available	1
LTBoost: Boosted Hybrids of Ensemble Linear and Gradient Algorithms for the Long-term Time Series Forecasting	Oct 21, 2024	Multivariate Time Series ForecastingTime Series	CodeCode Available	1
PALMS: Plane-based Accessible Indoor Localization Using Mobile Smartphones	Oct 21, 2024	Indoor Localization	CodeCode Available	1
Can Knowledge Editing Really Correct Hallucinations?	Oct 21, 2024	Hallucinationknowledge editing	CodeCode Available	1
TALoS: Enhancing Semantic Scene Completion via Test-time Adaptation on the Line of Sight	Oct 21, 2024	3D Semantic Scene Completion3D Semantic Segmentation	CodeCode Available	1
Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation	Oct 21, 2024		CodeCode Available	1
A Realistic Threat Model for Large Language Model Jailbreaks	Oct 21, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
AMPLE: Emotion-Aware Multimodal Fusion Prompt Learning for Fake News Detection	Oct 21, 2024	Fake News DetectionPrompt Learning	CodeCode Available	1
GATEAU: Selecting Influential Samples for Long Context Alignment	Oct 21, 2024	Instruction FollowingLong-Context Understanding	CodeCode Available	1
Comprehensive benchmarking of large language models for RNA secondary structure prediction	Oct 21, 2024	Benchmarking	CodeCode Available	1
Reinforced Imitative Trajectory Planning for Urban Automated Driving	Oct 21, 2024	Imitation Learningreinforcement-learning	CodeCode Available	1
CausalGraph2LLM: Evaluating LLMs for Causal Queries	Oct 21, 2024	Sensitivity	CodeCode Available	1
Are Large-scale Soft Labels Necessary for Large-scale Dataset Distillation?	Oct 21, 2024	Dataset DistillationDiversity	CodeCode Available	1
Catastrophic Failure of LLM Unlearning via Quantization	Oct 21, 2024	Machine UnlearningQuantization	CodeCode Available	1
Building A Coding Assistant via the Retrieval-Augmented Language Model	Oct 21, 2024	Code CompletionCode Generation	CodeCode Available	1
LMHaze: Intensity-aware Image Dehazing with a Large-scale Multi-intensity Real Haze Dataset	Oct 21, 2024	Image DehazingMamba	CodeCode Available	1
Arithmetic Transformers Can Length-Generalize in Both Operand Length and Count	Oct 21, 2024	Position	CodeCode Available	1
On conditional diffusion models for PDE simulations	Oct 21, 2024		CodeCode Available	1
Natural GaLore: Accelerating GaLore for memory-efficient LLM Training and Fine-tuning	Oct 21, 2024	parameter-efficient fine-tuning	CodeCode Available	1
Reflection-Bench: probing AI intelligence with reflection	Oct 21, 2024	counterfactualDecision Making	CodeCode Available	1
AlignVSR: Audio-Visual Cross-Modal Alignment for Visual Speech Recognition	Oct 21, 2024	cross-modal alignmentspeech-recognition	CodeCode Available	1
BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression	Oct 20, 2024	In-Context LearningLong-Context Understanding	CodeCode Available	1
Explainability of Point Cloud Neural Networks Using SMILE: Statistical Model-Agnostic Interpretability with Local Explanations	Oct 20, 2024	Autonomous Driving	CodeCode Available	1
Upsampling DINOv2 features for unsupervised vision tasks and weakly supervised materials segmentation	Oct 20, 2024	Clusteringgraph partitioning	CodeCode Available	1
BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping	Oct 20, 2024	Test-time Adaptation	CodeCode Available	1
TrackMe:A Simple and Effective Multiple Object Tracking Annotation Tool	Oct 20, 2024	Multiple Object TrackingObject	CodeCode Available	1
M-RewardBench: Evaluating Reward Models in Multilingual Settings	Oct 20, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
Mitigating Forgetting in LLM Supervised Fine-Tuning and Preference Learning	Oct 20, 2024		CodeCode Available	1
IPO: Interpretable Prompt Optimization for Vision-Language Models	Oct 20, 2024	Prompt LearningSpecificity	CodeCode Available	1
Causality for Large Language Models	Oct 20, 2024	Prompt Engineering	CodeCode Available	1
Scene Graph Generation with Role-Playing Large Language Models	Oct 20, 2024	DescriptiveGraph Generation	CodeCode Available	1
A Comprehensive Evaluation of Cognitive Biases in LLMs	Oct 20, 2024	Decision Making	CodeCode Available	1