The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

661,570 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3376–3400 of 661570 papers

Title	Date	Tasks	Status	Hype
Vaporetto: Efficient Japanese Tokenization Based on Improved Pointwise Linear Classification	Jun 24, 2024		CodeCode Available	3
Adam-mini: Use Fewer Learning Rates To Gain More	Jun 24, 2024		CodeCode Available	3
GIM: A Million-scale Benchmark for Generative Image Manipulation Detection and Localization	Jun 24, 2024	Image ManipulationImage Manipulation Detection	CodeCode Available	3
HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis	Jun 23, 2024	BenchmarkingRepresentation Learning	CodeCode Available	3
AudioBench: A Universal Benchmark for Audio Large Language Models	Jun 23, 2024	Audio Scene UnderstandingInstruction Following	CodeCode Available	3
Are Language Models Actually Useful for Time Series Forecasting?	Jun 22, 2024	Time SeriesTime Series Forecasting	CodeCode Available	3
Taming 3DGS: High-Quality Radiance Fields with Limited Resources	Jun 21, 2024	3DGSAttribute	CodeCode Available	3
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models	Jun 20, 2024	Video Editing	CodeCode Available	3
^2DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials	Jun 20, 2024	Drug DiscoveryMolecular Property Prediction	CodeCode Available	3
Visible-Thermal Tiny Object Detection: A Benchmark Dataset and Baselines	Jun 20, 2024	Diversityobject-detection	CodeCode Available	3
Consistency Models Made Easy	Jun 20, 2024	Computational EfficiencyGPU	CodeCode Available	3
LLM4CP: Adapting Large Language Models for Channel Prediction	Jun 20, 2024	PredictionTime Series Analysis	CodeCode Available	3
GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation	Jun 19, 2024	BenchmarkingImage Generation	CodeCode Available	3
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models	Jun 19, 2024	Instruction Following	CodeCode Available	3
AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents	Jun 19, 2024		CodeCode Available	3
SpatialBot: Precise Spatial Understanding with Vision Language Models	Jun 19, 2024	Spatial Reasoning	CodeCode Available	3
Detecting hallucinations in large language models using semantic entropy	Jun 19, 2024	Large Language ModelQuestion Answering	CodeCode Available	3
APPL: A Prompt Programming Language for Harmonious Integration of Programs and Large Language Model Prompts	Jun 19, 2024	Language ModelingLanguage Modelling	CodeCode Available	3
VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models	Jun 19, 2024	GPULanguage Modeling	CodeCode Available	3
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?	Jun 19, 2024	RAGRetrieval	CodeCode Available	3
Evaluating representation learning on the protein structure universe	Jun 19, 2024	Representation Learning	CodeCode Available	3
DF40: Toward Next-Generation Deepfake Detection	Jun 19, 2024	DeepFake DetectionFace Reenactment	CodeCode Available	3
TSI-Bench: Benchmarking Time Series Imputation	Jun 18, 2024	BenchmarkingDeep Learning	CodeCode Available	3
VoCo-LLaMA: Towards Vision Compression with Large Language Models	Jun 18, 2024	Computational EfficiencyQuestion Answering	CodeCode Available	3
WebCanvas: Benchmarking Web Agents in Online Environments	Jun 18, 2024	AI AgentBenchmarking	CodeCode Available	3