Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–525 of 805 papers

Title	Date	Tasks	Status
UGMathBench: A Diverse and Dynamic Benchmark for Undergraduate-Level Mathematical Reasoning with Large Language Models	Jan 23, 2025	Mathematical Reasoning	—Unverified
Advancing Mathematical Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages	Jan 23, 2025	Instruction FollowingMath	—Unverified
InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model	Jan 21, 2025	Instruction FollowingMathematical Reasoning	—Unverified
CDW-CoT: Clustered Distance-Weighted Chain-of-Thoughts Reasoning	Jan 21, 2025	ClusteringMathematical Reasoning	—Unverified
Benchmarking Large Language Models via Random Variables	Jan 20, 2025	BenchmarkingMathematical Reasoning	—Unverified
Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective	Jan 19, 2025	Automated Theorem ProvingMath	—Unverified
Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback	Jan 18, 2025	MathMathematical Reasoning	—Unverified
The Lessons of Developing Process Reward Models in Mathematical Reasoning	Jan 13, 2025	Mathematical Reasoning	—Unverified
Quantization Meets Reasoning: Exploring LLM Low-Bit Quantization Degradation for Mathematical Reasoning	Jan 6, 2025	MathMathematical Reasoning	—Unverified
Understand, Solve and Translate: Bridging the Multilingual Mathematical Reasoning Gap	Jan 5, 2025	MathMathematical Reasoning	—Unverified
Table as Thought: Exploring Structured Thoughts in LLM Reasoning	Jan 4, 2025	Mathematical Reasoning	—Unverified
Enhancing Reasoning through Process Supervision with Monte Carlo Tree Search	Jan 2, 2025	Mathematical Reasoning	—Unverified
Plug-and-Play Training Framework for Preference Optimization	Dec 30, 2024	Mathematical ReasoningQuestion Answering	—Unverified
LLM2: Let Large Language Models Harness System 2 Reasoning	Dec 29, 2024	GSM8KMathematical Reasoning	CodeCode Available
LLM Reasoning Engine: Specialized Training for Enhanced Mathematical Reasoning	Dec 28, 2024	Mathematical Reasoning	—Unverified
Large Language Models for Mathematical Analysis	Dec 28, 2024	Mathematical Problem-SolvingMathematical Reasoning	CodeCode Available
Multilingual Mathematical Reasoning: Advancing Open-Source LLMs in Hindi and English	Dec 24, 2024	Mathematical Reasoning	CodeCode Available
Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration	Dec 22, 2024	Decision MakingMachine Translation	CodeCode Available
System-2 Mathematical Reasoning via Enriched Instruction Tuning	Dec 22, 2024	ERPGSM8K	—Unverified
What Are Step-Level Reward Models Rewarding? Counterintuitive Findings from MCTS-Boosted Mathematical Reasoning	Dec 20, 2024	Mathematical Reasoning	—Unverified
Template-Driven LLM-Paraphrased Framework for Tabular Math Word Problem Generation	Dec 20, 2024	MathMathematical Reasoning	CodeCode Available
Formal Mathematical Reasoning: A New Frontier in AI	Dec 20, 2024	Automated Theorem ProvingMath	—Unverified
Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning	Dec 20, 2024	Language ModelingLanguage Modelling	—Unverified
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying	Dec 19, 2024	MathMathematical Reasoning	CodeCode Available
MetaRuleGPT: Recursive Numerical Reasoning of Language Models Trained with Simple Rules	Dec 18, 2024	Mathematical ReasoningMeta-Learning	—Unverified

Show:10 25 50

← PrevPage 21 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	Search-o1	Acc	56.7	—	Unverified
6	s1-32B	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	GPT-4o	Accuracy	0.01	—	Unverified
4	o1-mini	Accuracy	0.01	—	Unverified
5	o1-preview	Accuracy	0.01	—	Unverified
6	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified