The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 17451–17500 of 474278 papers

Title	Date	Tasks	Status	Hype
UDora: A Unified Red Teaming Framework against LLM Agents by Dynamically Hijacking Their Own Reasoning	Feb 28, 2025	Large Language ModelRed Teaming	CodeCode Available	1
Contextualizing biological perturbation experiments through language	Feb 28, 2025	Efficient Exploration	CodeCode Available	1
Dynamic Markov Blanket Detection for Macroscopic Physics Discovery	Feb 28, 2025	Object	CodeCode Available	1
Algebraic Machine Learning: Learning as computing an algebraic decomposition of a task	Feb 27, 2025	Abstract Algebra	CodeCode Available	1
CLIP Under the Microscope: A Fine-Grained Analysis of Multi-Object Representation	Feb 27, 2025	Image-text matchingObject	CodeCode Available	1
Shifting the Paradigm: A Diffeomorphism Between Time Series Data Manifolds for Achieving Shift-Invariancy in Deep Learning	Feb 27, 2025	Time Series	CodeCode Available	1
Your contrastive learning problem is secretly a distribution alignment problem	Feb 27, 2025	Contrastive LearningSelf-Supervised Learning	CodeCode Available	1
Multi-Turn Code Generation Through Single-Step Rewards	Feb 27, 2025	Code GenerationHierarchical Reinforcement Learning	CodeCode Available	1
Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models	Feb 27, 2025	Machine Unlearning	CodeCode Available	1
Playing Pokémon Red via Deep Reinforcement Learning	Feb 27, 2025	Deep Reinforcement LearningLanguage Modeling	CodeCode Available	1
A2-GNN: Angle-Annular GNN for Visual Descriptor-free Camera Relocalization	Feb 27, 2025	Camera RelocalizationGraph Neural Network	CodeCode Available	1
ColorDynamic: Generalizable, Scalable, Real-time, End-to-end Local Planner for Unstructured and Dynamic Environments	Feb 27, 2025	Data AugmentationDeep Reinforcement Learning	CodeCode Available	1
PhantomWiki: On-Demand Datasets for Reasoning and Retrieval Evaluation	Feb 27, 2025	Retrieval	CodeCode Available	1
Order-Robust Class Incremental Learning: Graph-Driven Dynamic Similarity Grouping	Feb 27, 2025	class-incremental learningClass Incremental Learning	CodeCode Available	1
Can Textual Gradient Work in Federated Learning?	Feb 27, 2025	Federated Learning	CodeCode Available	1
ProAPO: Progressively Automatic Prompt Optimization for Visual Classification	Feb 27, 2025	ClassificationHallucination	CodeCode Available	1
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving	Feb 27, 2025	GSM8KMath	CodeCode Available	1
Long-Context Inference with Retrieval-Augmented Speculative Decoding	Feb 27, 2025	Computational EfficiencyRAG	CodeCode Available	1
Adaptive Attacks Break Defenses Against Indirect Prompt Injection Attacks on LLM Agents	Feb 27, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
SkipPipe: Partial and Reordered Pipelining Framework for Training LLMs in Heterogeneous Networks	Feb 27, 2025	Scheduling	CodeCode Available	1
Self-Training Elicits Concise Reasoning in Large Language Models	Feb 27, 2025	GSM8KIn-Context Learning	CodeCode Available	1
PrimeK-Net: Multi-scale Spectral Learning via Group Prime-Kernel Convolutional Neural Networks for Single Channel Speech Enhancement	Feb 27, 2025	Computational EfficiencySpeech Enhancement	CodeCode Available	1
Time-Varying Identification of Structural Vector Autoregressions	Feb 27, 2025		CodeCode Available	1
Exponential Topology-enabled Scalable Communication in Multi-agent Reinforcement Learning	Feb 27, 2025	Multi-agent Reinforcement Learning	CodeCode Available	1
Bridging the PLC Binary Analysis Gap: A Cross-Compiler Dataset and Neural Framework for Industrial Control Systems	Feb 27, 2025	Compiler Optimization	CodeCode Available	1
Emergent Symbolic Mechanisms Support Abstract Reasoning in Large Language Models	Feb 27, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models	Feb 27, 2025	Question AnsweringRAG	CodeCode Available	1
Mixture of Structural-and-Textual Retrieval over Text-rich Graph Knowledge Bases	Feb 27, 2025	RerankingRetrieval	CodeCode Available	1
Mixtera: A Data Plane for Foundation Model Training	Feb 27, 2025	model	CodeCode Available	1
Implicit Search via Discrete Diffusion: A Study on Chess	Feb 27, 2025		CodeCode Available	1
Gradient-Guided Annealing for Domain Generalization	Feb 27, 2025	Domain Generalizationimage-classification	CodeCode Available	1
Generative augmentations for improved cardiac ultrasound segmentation using diffusion models	Feb 27, 2025	Segmentation	CodeCode Available	1
Foot-In-The-Door: A Multi-turn Jailbreak for LLMs	Feb 27, 2025		CodeCode Available	1
MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge	Feb 27, 2025	knowledge editing	CodeCode Available	1
EgoNormia: Benchmarking Physical Social Norm Understanding	Feb 27, 2025	Answer GenerationBenchmarking	CodeCode Available	1
QPM: Discrete Optimization for Globally Interpretable Image Classification	Feb 27, 2025	Classificationimage-classification	CodeCode Available	1
Vector-Quantized Vision Foundation Models for Object-Centric Learning	Feb 27, 2025	ObjectObject Discovery	CodeCode Available	1
ReCon: Enhancing True Correspondence Discrimination through Relation Consistency for Robust Noisy Correspondence Learning	Feb 27, 2025	Cross-Modal RetrievalCross-modal retrieval with noisy correspondence	CodeCode Available	1
Bridging Legal Knowledge and AI: Retrieval-Augmented Generation with Vector Stores, Knowledge Graphs, and Hierarchical Non-negative Matrix Factorization	Feb 27, 2025	Information RetrievalKnowledge Graphs	CodeCode Available	1
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language Model	Feb 27, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
CirT: Global Subseasonal-to-Seasonal Forecasting with Geometry-inspired Transformer	Feb 27, 2025	Decision Making	CodeCode Available	1
Mixmamba-fewshot: mamba and attention mixer-based method with few-shot learning for bearing fault diagnosis	Feb 27, 2025	ClassificationDiagnostic	CodeCode Available	1
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration	Feb 27, 2025	Image ComprehensionReferring Expression	CodeCode Available	1
Scalable Signature Kernel Computations for Long Time Series via Local Neumann Series Expansions	Feb 27, 2025	GPUTime Series	CodeCode Available	1
RouteRL: Multi-agent reinforcement learning framework for urban route choice with autonomous vehicles	Feb 27, 2025	Autonomous VehiclesMulti-agent Reinforcement Learning	CodeCode Available	1
SegLocNet: Multimodal Localization Network for Autonomous Driving via Bird's-Eye-View Segmentation	Feb 27, 2025	Autonomous DrivingBEV Segmentation	CodeCode Available	1
Spiideo SoccerNet SynLoc: Single Frame World Coordinate Athlete Detection and Localization with Synthetic Data	Feb 27, 2025	3D Object DetectionSports Analytics	CodeCode Available	1
Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents	Feb 27, 2025	Benchmarking	CodeCode Available	1
R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts	Feb 27, 2025	Mixture-of-Experts	CodeCode Available	1
Multi-Keypoint Affordance Representation for Functional Dexterous Grasping	Feb 27, 2025		CodeCode Available	1