Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–725 of 805 papers

Title	Date	Tasks	Status
CoinMath: Harnessing the Power of Coding Instruction for Math LLMs	Dec 16, 2024	DescriptiveMath	CodeCode Available
Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark	Oct 6, 2024	Mathematical ReasoningSpatial Reasoning	CodeCode Available
Planning and Editing What You Retrieve for Enhanced Tool Learning	Mar 30, 2024	Mathematical ReasoningRetrieval	CodeCode Available
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement	Feb 18, 2024	Mathematical ReasoningText Generation	CodeCode Available
Code Soliloquies for Accurate Calculations in Large Language Models	Sep 21, 2023	Language ModellingLarge Language Model	CodeCode Available
Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning in Large Language Models	Apr 17, 2024	FormLanguage Model Evaluation	CodeCode Available
Overcoming Barriers to Skill Injection in Language Modeling: Case Study in Arithmetic	Nov 3, 2022	Arithmetic ReasoningLanguage Modeling	CodeCode Available
Omni-DPO: A Dual-Perspective Paradigm for Dynamic Preference Learning of LLMs	Jun 11, 2025	Mathematical Reasoning	CodeCode Available
Table Question Answering for Low-resourced Indic Languages	Oct 4, 2024	Cross-Lingual TransferMathematical Reasoning	CodeCode Available
Evaluating Mathematical Reasoning of Large Language Models: A Focus on Error Identification and Correction	Jun 2, 2024	Mathematical Reasoning	CodeCode Available
NUMCoT: Numerals and Units of Measurement in Chain-of-Thought Reasoning using Large Language Models	Jun 5, 2024	MathMathematical Reasoning	CodeCode Available
A Survey on Mathematical Reasoning and Optimization with Large Language Models	Mar 22, 2025	Automated Theorem ProvingHeuristic Search	CodeCode Available
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models	Mar 27, 2025	Data VisualizationMath	CodeCode Available
Not All Votes Count! Programs as Verifiers Improve Self-Consistency of Language Models for Math Reasoning	Oct 16, 2024	AllGSM8K	CodeCode Available
NeuralNexus at BEA 2025 Shared Task: Retrieval-Augmented Prompting for Mistake Identification in AI Tutors	Jun 12, 2025	Language ModelingLanguage Modelling	CodeCode Available
Teaching-Inspired Integrated Prompting Framework: A Novel Approach for Enhancing Reasoning in Large Language Models	Oct 10, 2024	Arithmetic ReasoningMath	CodeCode Available
Multilingual Mathematical Reasoning: Advancing Open-Source LLMs in Hindi and English	Dec 24, 2024	Mathematical Reasoning	CodeCode Available
Reasoning with Transformer-based Models: Deep Learning, but Shallow Reasoning	Jun 22, 2021	Deep LearningLogical Reasoning	CodeCode Available
Error Typing for Smarter Rewards: Improving Process Reward Models with Error-Aware Hierarchical Supervision	May 26, 2025	HallucinationMath	CodeCode Available
MultiLingPoT: Enhancing Mathematical Reasoning with Multilingual Program Fine-tuning	Dec 17, 2024	Mathematical Reasoning	CodeCode Available
Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration	Dec 22, 2024	Decision MakingMachine Translation	CodeCode Available
MoD: A Distribution-Based Approach for Merging Large Language Models	Nov 1, 2024	Mathematical Reasoning	CodeCode Available
MMATH: A Multilingual Benchmark for Mathematical Reasoning	May 25, 2025	MathMathematical Reasoning	CodeCode Available
Transformers discover an elementary calculation system exploiting local attention and grid-like problem representation	Jul 6, 2022	Mathematical Reasoning	CodeCode Available
MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO	May 19, 2025	DecoderImage Generation	CodeCode Available

Show:10 25 50

← PrevPage 29 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	s1-32B	Acc	56.7	—	Unverified
6	Search-o1	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	o1-preview	Accuracy	0.01	—	Unverified
4	GPT-4o	Accuracy	0.01	—	Unverified
5	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified
6	o1-mini	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified