The Open Verification Layer for ML Research

Community benchmark tracking and reproducibility verification. Built for researchers and autonomous research agents.

474,278 papers248,326 code links4,818 tasks

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 19551–19600 of 474278 papers

Title	Date	Tasks	Status	Hype
Continuous Chain of Thought Enables Parallel Exploration and Reasoning	May 29, 2025	Logical Reasoning	—Unverified	0
Understanding Mode Connectivity via Parameter Space Symmetry	May 29, 2025	Linear Mode Connectivity	—Unverified	0
SC-LoRA: Balancing Efficient Fine-tuning and Knowledge Preservation via Subspace-Constrained LoRA	May 29, 2025	Navigateparameter-efficient fine-tuning	—Unverified	0
MuLoCo: Muon is a practical inner optimizer for DiLoCo	May 29, 2025	DecoderQuantization	—Unverified	0
EmotionRankCLAP: Bridging Natural Language Speaking Styles and Ordinal Speech Emotion via Rank-N-Contrast	May 29, 2025	Contrastive Learningcross-modal alignment	—Unverified	0
Differential Information: An Information-Theoretic Perspective on Preference Optimization	May 29, 2025	Inductive BiasInstruction Following	—Unverified	0
Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness	May 29, 2025	DiversityLarge Language Model	—Unverified	0
JAPAN: Joint Adaptive Prediction Areas with Normalising-Flows	May 29, 2025	Conformal PredictionNormalising Flows	—Unverified	0
Stable Thompson Sampling: Valid Inference via Variance Inflation	May 29, 2025	Decision MakingThompson Sampling	—Unverified	0
Enhancing Marker Scoring Accuracy through Ordinal Confidence Modelling in Educational Assessments	May 29, 2025	Automated Essay Scoring	—Unverified	0
Emergent Risk Awareness in Rational Agents under Resource Constraints	May 29, 2025	Sequential Decision Making	—Unverified	0
Detecting Stealthy Backdoor Samples based on Intra-class Distance for Large Language Models	May 29, 2025	ClusteringMachine Translation	—Unverified	0
Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking	May 29, 2025	BenchmarkingGraph Question Answering	—Unverified	0
Are Reasoning Models More Prone to Hallucination?	May 29, 2025	Hallucination	—Unverified	0
From Chat Logs to Collective Insights: Aggregative Question Answering	May 29, 2025	ChatbotQuestion Answering	—Unverified	0
Comparative of Genetic Fuzzy regression techniques for aeroacoustic phenomenons	May 29, 2025	Clusteringregression	—Unverified	0
StrucSum: Graph-Structured Reasoning for Long Document Extractive Summarization with LLMs	May 29, 2025	Extractive SummarizationSentence	—Unverified	0
LLMs for Argument Mining: Detection, Extraction, and Relationship Classification of pre-defined Arguments in Online Comments	May 29, 2025	Argument Mining	—Unverified	0
EL4NER: Ensemble Learning for Named Entity Recognition via Multiple Small-Parameter Large Language Models	May 29, 2025	Ensemble LearningIn-Context Learning	—Unverified	0
Dataset Cartography for Large Language Model Alignment: Mapping and Diagnosing Preference Data	May 29, 2025	Language ModelingLanguage Modelling	—Unverified	0
Elicit and Enhance: Advancing Multimodal Reasoning in Medical Scenarios	May 29, 2025	Multimodal Reasoning	—Unverified	0
PBEBench: A Multi-Step Programming by Examples Reasoning Benchmark inspired by Historical Linguistics	May 29, 2025	Math	—Unverified	0
Enhancing Large Language Models'Machine Translation via Dynamic Focus Anchoring	May 29, 2025	Machine TranslationTranslation	—Unverified	0
Cross-Domain Bilingual Lexicon Induction via Pretrained Language Models	May 29, 2025	Bilingual Lexicon InductionWord Embeddings	—Unverified	0
Neither Stochastic Parroting nor AGI: LLMs Solve Tasks through Context-Directed Extrapolation from Training Data Priors	May 29, 2025	In-Context Learning	—Unverified	0
Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt	May 29, 2025	Mathematical Reasoning	—Unverified	0
Characterizing the Expressivity of Transformer Language Models	May 29, 2025	Hard Attention	—Unverified	0
ARC: Argument Representation and Coverage Analysis for Zero-Shot Long Document Summarization with Instruction Following LLMs	May 29, 2025	Abstractive Text SummarizationARC	—Unverified	0
Can LLMs Reason Abstractly Over Math Word Problems Without CoT? Disentangling Abstract Formulation From Arithmetic Computation	May 29, 2025	GSM8KMath	—Unverified	0
ATLAS: Learning to Optimally Memorize the Context at Test Time	May 29, 2025	Common Sense ReasoningLanguage Modeling	—Unverified	0
Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models	May 29, 2025	Logical ReasoningMath	—Unverified	0
Socratic-PRMBench: Benchmarking Process Reward Models with Systematic Reasoning Patterns	May 29, 2025	Benchmarking	—Unverified	0
GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning	May 29, 2025	Multimodal ReasoningMVBench	—Unverified	0
EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions	May 29, 2025	Safety Alignment	—Unverified	0
TRAP: Targeted Redirecting of Agentic Preferences	May 29, 2025	Decision Making	—Unverified	0
Fortune: Formula-Driven Reinforcement Learning for Symbolic Table Reasoning in Language Models	May 29, 2025	Question AnsweringReinforcement Learning (RL)	—Unverified	0
BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model	May 29, 2025	Large Language Modelscientific discovery	CodeCode Available	3
ZeroGUI: Automating Online GUI Learning at Zero Human Cost	May 29, 2025		CodeCode Available	2
Normalizing Flows are Capable Models for RL	May 29, 2025	Imitation LearningReinforcement Learning (RL)	CodeCode Available	1
DeepTheorem: Advancing LLM Reasoning for Theorem Proving Through Natural Language and Reinforcement Learning	May 29, 2025	Automated Theorem ProvingMathematical Reasoning	CodeCode Available	1
MAGREF: Masked Guidance for Any-Reference Video Generation	May 29, 2025	Human-Domain Subject-to-VideoOpen-Domain Subject-to-Video	CodeCode Available	3
VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models	May 29, 2025	Self-Supervised LearningVideo Generation	CodeCode Available	2
Context Robust Knowledge Editing for Language Models	May 29, 2025	knowledge editing	CodeCode Available	1
Video Editing for Audio-Visual Dubbing	May 29, 2025	Video Editing	CodeCode Available	0
A Divide-and-Conquer Approach for Global Orientation of Non-Watertight Scene-Level Point Clouds Using 0-1 Integer Optimization	May 29, 2025	global-optimizationSurface Reconstruction	CodeCode Available	0
TimePoint: Accelerated Time Series Alignment via Self-Supervised Keypoint and Descriptor Learning	May 29, 2025	Dynamic Time WarpingKeypoint Detection	CodeCode Available	1
VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation	May 29, 2025	Caption GenerationLanguage Modeling	CodeCode Available	1
VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos	May 29, 2025	Question AnsweringVideo Generation	CodeCode Available	0
Comparing the Effects of Persistence Barcodes Aggregation and Feature Concatenation on Medical Imaging	May 29, 2025	Feature EngineeringMedical Image Analysis	CodeCode Available	0
Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model	May 29, 2025	DecoderImage Generation	CodeCode Available	2