Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 476–500 of 805 papers

Title	Date	Tasks	Status
Kwai-STaR: Transform LLMs into State-Transition Reasoners	Nov 7, 2024	GSM8KMathematical Problem-Solving	—Unverified
KwaiYiiMath: Technical Report	Oct 11, 2023	Arithmetic ReasoningGSM8K	—Unverified
Mathematical Reasoning via Self-supervised Skip-tree Training	Jun 8, 2020	Language ModelingLanguage Modelling	—Unverified
Language Models Use Trigonometry to Do Addition	Feb 2, 2025	Language ModelingLanguage Modelling	—Unverified
LANS: A Layout-Aware Neural Solver for Plane Geometry Problem	Nov 25, 2023	Geometry Problem SolvingLanguage Modelling	—Unverified
Large Language Models and Mathematical Reasoning Failures	Feb 17, 2025	Mathematical ReasoningPhysical Intuition	—Unverified
Large Language Models Don't Make Sense of Word Problems. A Scoping Review from a Mathematics Education Perspective	Jun 30, 2025	Mathematical Reasoning	—Unverified
Large Language Models for Combinatorial Optimization of Design Structure Matrix	Nov 19, 2024	Combinatorial OptimizationMathematical Reasoning	—Unverified
Large Language Models for Design Structure Matrix Optimization	Jun 11, 2025	Combinatorial OptimizationMathematical Reasoning	—Unverified
Large Language Models for Mathematical Reasoning: Progresses and Challenges	Jan 31, 2024	DiversityMath	—Unverified
Large Language Models Have Intrinsic Meta-Cognition, but Need a Good Lens	Jun 10, 2025	BenchmarkingMathematical Reasoning	—Unverified
Large Multi-Modal Models (LMMs) as Universal Foundation Models for AI-Native Wireless Systems	Jan 30, 2024	Mathematical ReasoningRAG	—Unverified
Layer Importance for Mathematical Reasoning is Forged in Pre-Training and Invariant after Post-Training	Jun 27, 2025	Knowledge DistillationMathematical Reasoning	—Unverified
Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models	Oct 2, 2024	Cross-Lingual TransferMath	—Unverified
LeanProgress: Guiding Search for Neural Theorem Proving via Proof Progress Prediction	Feb 25, 2025	Automated Theorem ProvingMathematical Reasoning	—Unverified
LearnAlign: Reasoning Data Selection for Reinforcement Learning in Large Language Models Based on Improved Gradient Alignment	Jun 13, 2025	GSM8KMathematical Reasoning	—Unverified
Learning by Applying: A General Framework for Mathematical Reasoning via Enhancing Explicit Knowledge Learning	Feb 11, 2023	DecoderMathematical Reasoning	—Unverified
Learning Like Humans: Advancing LLM Reasoning Capabilities via Adaptive Difficulty Curriculum Learning and Expert-Guided Self-Reformulation	May 13, 2025	Imitation LearningMathematical Reasoning	—Unverified
Learning to chain-of-thought with Jensen's evidence lower bound	Mar 25, 2025	Mathematical Reasoningreinforcement-learning	—Unverified
Learning to Rank Chain-of-Thought: An Energy-Based Approach with Outcome Supervision	May 21, 2025	GSM8KLearning-To-Rank	—Unverified
Learning to Reason With Relational Abstractions	Oct 6, 2022	Mathematical Reasoning	—Unverified
LemmaHead: RAG Assisted Proof Generation Using Large Language Models	Jan 27, 2025	Automated Theorem ProvingMathematical Proofs	—Unverified
Let's Reason Formally: Natural-Formal Hybrid Reasoning Enhances LLM's Math Capability	May 29, 2025	MathMathematical Reasoning	—Unverified
Let's Reinforce Step by Step	Nov 10, 2023	GSM8KLogical Reasoning	—Unverified
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning	Oct 16, 2023	Code GenerationGSM8K	—Unverified

Show:10 25 50

← PrevPage 20 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	Search-o1	Acc	56.7	—	Unverified
6	s1-32B	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	GPT-4o	Accuracy	0.01	—	Unverified
4	o1-mini	Accuracy	0.01	—	Unverified
5	o1-preview	Accuracy	0.01	—	Unverified
6	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified