The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7176–7200 of 474278 papers

Title	Date	Tasks	Status	Hype
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization	Oct 11, 2024	GSM8KLanguage Modeling	CodeCode Available	2
JAILJUDGE: A Comprehensive Jailbreak Judge Benchmark with Multi-Agent Enhanced Explanation Evaluation Framework	Oct 11, 2024		CodeCode Available	2
On the State of NLP Approaches to Modeling Depression in Social Media: A Post-COVID-19 Outlook	Oct 11, 2024	EthicsFairness	CodeCode Available	2
Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation	Oct 11, 2024	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	2
radarODE-MTL: A Multi-Task Learning Framework with Eccentric Gradient Alignment for Robust Radar-Based ECG Reconstruction	Oct 11, 2024	Multi-Task Learning	CodeCode Available	2
StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization	Oct 11, 2024	RAGRetrieval-augmented Generation	CodeCode Available	2
Window Function-less DFT with Reduced Noise and Latency for Real-Time Music Analysis	Oct 10, 2024		CodeCode Available	2
COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act	Oct 10, 2024	BenchmarkingFairness	CodeCode Available	2
Poison-splat: Computation Cost Attack on 3D Gaussian Splatting	Oct 10, 2024	3DGS	CodeCode Available	2
Doob's Lagrangian: A Sample-Efficient Variational Approach to Transition Path Sampling	Oct 10, 2024	Protein Folding	CodeCode Available	2
DelTA: An Online Document-Level Translation Agent Based on Multi-Level Memory	Oct 10, 2024	Document TranslationMachine Translation	CodeCode Available	2
Heating Up Quasi-Monte Carlo Graph Random Features: A Diffusion Kernel Perspective	Oct 10, 2024		CodeCode Available	2
Flex-MoE: Modeling Arbitrary Modality Combination via the Flexible Mixture-of-Experts	Oct 10, 2024	Mixture-of-Experts	CodeCode Available	2
Q-VLM: Post-training Quantization for Large Vision-Language Models	Oct 10, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
Deconstructing equivariant representations in molecular systems	Oct 10, 2024	Property Prediction	CodeCode Available	2
From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions	Oct 10, 2024	Diversity	CodeCode Available	2
Efficiently Learning at Test-Time: Active Fine-Tuning of LLMs	Oct 10, 2024	Active LearningLanguage Modeling	CodeCode Available	2
Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models	Oct 10, 2024	GSM8KMath	CodeCode Available	2
OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling	Oct 10, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code	Oct 10, 2024	MathMathematical Reasoning	CodeCode Available	2
MotionGS: Exploring Explicit Motion Guidance for Deformable 3D Gaussian Splatting	Oct 10, 2024	3D ReconstructionDynamic Reconstruction	CodeCode Available	2
VibeCheck: Discover and Quantify Qualitative Differences in Large Language Models	Oct 10, 2024	Math	CodeCode Available	2
IncEventGS: Pose-Free Gaussian Splatting from a Single Event Camera	Oct 10, 2024	Motion EstimationNeRF	CodeCode Available	2
Progressive Autoregressive Video Diffusion Models	Oct 10, 2024	DenoisingVideo Denoising	CodeCode Available	2
VoxelPrompt: A Vision-Language Agent for Grounded Medical Image Analysis	Oct 10, 2024	Medical Image AnalysisQuestion Answering	CodeCode Available	2