Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 526–550 of 805 papers

Title	Date	Tasks	Status
Exploring the Mystery of Influential Data for Mathematical Reasoning	Apr 1, 2024	MathMathematical Reasoning	—Unverified
Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning	Jun 16, 2024	BenchmarkingMath	—Unverified
Federated Prompting and Chain-of-Thought Reasoning for Improving LLMs Answering	Apr 27, 2023	Mathematical Reasoning	—Unverified
FG-PRM: Fine-grained Hallucination Detection and Mitigation in Language Model Mathematical Reasoning	Oct 8, 2024	GSM8KHallucination	—Unverified
FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models	Mar 12, 2024	MathMathematical Reasoning	—Unverified
Fine-Tuning and Prompt Optimization: Two Great Steps that Work Better Together	Jul 15, 2024	Arithmetic ReasoningLanguage Modeling	—Unverified
First-Step Advantage: Importance of Starting Right in Multi-Step Math Reasoning	Nov 14, 2023	GSM8KMath	—Unverified
Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning	Oct 29, 2024	Mathematical Reasoning	—Unverified
Foreword: A Computable Universe, Understanding Computation and Exploring Nature As Computation	May 25, 2012	Mathematical Reasoning	—Unverified
Formal Mathematical Reasoning: A New Frontier in AI	Dec 20, 2024	Automated Theorem ProvingMath	—Unverified
Fourier Circuits in Neural Networks and Transformers: A Case Study of Modular Arithmetic with Multiple Inputs	Feb 12, 2024	2kMathematical Reasoning	—Unverified
From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks	Sep 6, 2024	Machine TranslationMathematical Reasoning	—Unverified
From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education	Feb 19, 2025	DiagnosticGSM8K	—Unverified
From Good to Great: Improving Math Reasoning with Tool-Augmented Interleaf Prompting	Dec 18, 2023	DiversityGSM8K	—Unverified
From Informal to Formal -- Incorporating and Evaluating LLMs on Natural Language Requirements to Verifiable Formal Proofs	Jan 27, 2025	4kMathematical Reasoning	—Unverified
FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI	Nov 7, 2024	Mathematical Reasoning	—Unverified
Full-Step-DPO: Self-Supervised Preference Optimization with Step-wise Rewards for Mathematical Reasoning	Feb 20, 2025	Mathematical Reasoning	—Unverified
GAPS: Geometry-Aware Problem Solver	Jan 29, 2024	Geometry Problem SolvingMath	—Unverified
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning	Apr 1, 2025	MathMathematical Reasoning	—Unverified
GeomVerse: A Systematic Evaluation of Large Models for Geometric Reasoning	Dec 19, 2023	Mathematical Reasoning	—Unverified
GFlowNet Fine-tuning for Diverse Correct Solutions in Mathematical Reasoning Tasks	Oct 26, 2024	DiversityMathematical Reasoning	—Unverified
GoRA: Gradient-driven Adaptive Low Rank Adaptation	Feb 13, 2025	Computational EfficiencyMathematical Reasoning	—Unverified
GraphIC: A Graph-Based In-Context Example Retrieval Model for Multi-Step Reasoning	Oct 3, 2024	Code GenerationIn-Context Learning	—Unverified
GraphMR: Graph Neural Network for Mathematical Reasoning	Nov 1, 2021	Graph Neural NetworkGraph-to-Sequence	—Unverified
Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence	May 23, 2025	GPULarge Language Model	—Unverified

Show:10 25 50

← PrevPage 22 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	Search-o1	Acc	56.7	—	Unverified
6	s1-32B	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	GPT-4o	Accuracy	0.01	—	Unverified
4	o1-mini	Accuracy	0.01	—	Unverified
5	o1-preview	Accuracy	0.01	—	Unverified
6	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified