SOTAVerified|Agents Browse Leaderboard About Blog

Math

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–275 of 1596 papers

Title	Date	Tasks	Status	Hype
In between myth and reality: AI for math -- a case study in category theory	Apr 17, 2025	Math	—Unverified	0
Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading	Apr 16, 2025	2kCode Generation	—Unverified	0
Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation	Apr 16, 2025	GSM8KMath	—Unverified	0
Reinforcement Learning from Human Feedback	Apr 16, 2025	MathPhilosophy	CodeCode Available	5
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs	Apr 15, 2025	MathMathematical Reasoning	—Unverified	0
Fine-Tuning Large Language Models on Quantum Optimization Problems for Circuit Generation	Apr 15, 2025	MathQuantum Machine Learning	CodeCode Available	1
M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models	Apr 14, 2025	MambaMath	CodeCode Available	1
Heimdall: test-time scaling on the generative verification	Apr 14, 2025	Math	—Unverified	0
Efficient Process Reward Model Training via Active Learning	Apr 14, 2025	Active LearningMath	CodeCode Available	1
The Jailbreak Tax: How Useful are Your Jailbreak Outputs?	Apr 14, 2025	Math	CodeCode Available	1
Syzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution	Apr 13, 2025	GSM8KMath	CodeCode Available	3
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning	Apr 10, 2025	MathMultimodal Reasoning	CodeCode Available	2
Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory	Apr 10, 2025	MathMMLU	CodeCode Available	3
Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression	Apr 10, 2025	MathMMLU	CodeCode Available	1
Supervised Optimism Correction: Be Confident When LLMs Are Sure	Apr 10, 2025	GSM8KMath	—Unverified	0
GPT Carry-On: Training Foundation Model for Customization Could Be Simple, Scalable and Affordable	Apr 10, 2025	GPUMath	—Unverified	0
MDIT: A Model-free Data Interpolation Method for Diverse Instruction Tuning	Apr 9, 2025	Code GenerationDiversity	—Unverified	0
Right Question is Already Half the Answer: Fully Unsupervised LLM Reasoning Incentivization	Apr 8, 2025	MathMathematical Reasoning	CodeCode Available	2
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models	Apr 8, 2025	MathMultimodal Reasoning	CodeCode Available	1
Beyond Single-Turn: A Survey on Multi-Turn Interactions with Large Language Models	Apr 7, 2025	Dialogue EvaluationFairness	CodeCode Available	2
Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use	Apr 7, 2025	GSM8KMath	—Unverified	0
Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models	Apr 7, 2025	MathQuantization	CodeCode Available	2
Reasoning Models Know When They're Right: Probing Hidden States for Self-Verification	Apr 7, 2025	Logical ReasoningMath	—Unverified	0
Efficient Reinforcement Finetuning via Adaptive Curriculum Learning	Apr 7, 2025	MathMathematical Reasoning	CodeCode Available	2
Retro-Search: Exploring Untaken Paths for Deeper and Efficient Reasoning	Apr 6, 2025	Math	—Unverified	0

Show:10 25 50

← PrevPage 11 of 64Next →

No leaderboard results yet.