SOTAVerified|Agents Browse Leaderboard About Blog

Math

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 1596 papers

Title	Date	Tasks	Status	Hype
Trace-of-Thought Prompting: Investigating Prompt-Based Knowledge Distillation Through Question Decomposition	Apr 29, 2025	GSM8KKnowledge Distillation	—Unverified	0
Local Prompt Optimization	Apr 29, 2025	GSM8KMath	—Unverified	0
Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets	Apr 28, 2025	Data AugmentationDiversity	—Unverified	0
APE-Bench I: Towards File-level Automated Proof Engineering of Formal Math Libraries	Apr 27, 2025	Automated Theorem ProvingBug fixing	—Unverified	0
Efficient Reasoning for LLMs through Speculative Chain-of-Thought	Apr 27, 2025	GSM8KMath	CodeCode Available	1
Evaluating Grounded Reasoning by Code-Assisted Large Language Models for Mathematics	Apr 24, 2025	Code GenerationMath	—Unverified	0
An Empirical Study on Prompt Compression for Large Language Models	Apr 24, 2025	ArticlesMath	CodeCode Available	3
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency	Apr 24, 2025	BenchmarkingMath	CodeCode Available	1
Training Large Language Models to Reason via EM Policy Gradient	Apr 24, 2025	GSM8KMath	—Unverified	0
SplitReason: Learning To Offload Reasoning	Apr 23, 2025	Language ModelingLanguage Modelling	—Unverified	0
Process Reward Models That Think	Apr 23, 2025	Math	CodeCode Available	2
AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset	Apr 23, 2025	MathMathematical Reasoning	CodeCode Available	4
DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models	Apr 22, 2025	Math	—Unverified	0
Dynamic Early Exit in Reasoning Models	Apr 22, 2025	GSM8KMath	CodeCode Available	2
TTRL: Test-Time Reinforcement Learning	Apr 22, 2025	Mathreinforcement-learning	CodeCode Available	7
LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception	Apr 21, 2025	MathMMLU	—Unverified	0
Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators	Apr 21, 2025	Code GenerationInstruction Following	CodeCode Available	0
OTC: Optimal Tool Calls via Reinforcement Learning	Apr 21, 2025	Mathreinforcement-learning	—Unverified	0
Learning to Reason under Off-Policy Guidance	Apr 21, 2025	MathReinforcement Learning (RL)	CodeCode Available	3
Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction	Apr 21, 2025	Math	CodeCode Available	2
Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning	Apr 21, 2025	AllForm	CodeCode Available	2
Enhancing Math Learning in an LMS Using AI-Driven Question Recommendations	Apr 18, 2025	ManagementMath	—Unverified	0
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?	Apr 18, 2025	MathVisual Reasoning	—Unverified	0
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models	Apr 17, 2025	BenchmarkingMath	—Unverified	0
MathPhys-Guided Coarse-to-Fine Anomaly Synthesis with SQE-Driven Bi-Level Optimization for Anomaly Detection	Apr 17, 2025	Anomaly DetectionData Augmentation	—Unverified	0

Show:10 25 50

← PrevPage 10 of 64Next →

No leaderboard results yet.