Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 676–700 of 805 papers

Title	Date	Tasks	Status
Why are NLP Models Fumbling at Elementary Math? A Survey of Automatic Word Problem Solvers	Jan 16, 2022	MathMathematical Reasoning	—Unverified
Why are NLP Models Fumbling at Elementary Math? A Survey of Deep Learning based Word Problem Solvers	May 31, 2022	MathMathematical Reasoning	—Unverified
WirelessMathBench: A Mathematical Modeling Benchmark for LLMs in Wireless Communications	May 20, 2025	Mathematical ReasoningMultiple-choice	—Unverified
1bit-Merging: Dynamic Quantized Merging for Large Language Models	Feb 15, 2025	Code GenerationMath	—Unverified
HARDMath2: A Benchmark for Applied Mathematics Built by Students as Part of a Graduate Class	May 17, 2025	MathMathematical Problem-Solving	CodeCode Available
Guided Stream of Search: Learning to Better Search with Language Models via Optimal Path Guidance	Oct 3, 2024	Mathematical Reasoning	CodeCode Available
VerifiAgent: a Unified Verification Agent in Language Model Reasoning	Apr 1, 2025	Language ModelingLanguage Modelling	CodeCode Available
AI-Assisted Generation of Difficult Math Questions	Jul 30, 2024	MathMathematical Reasoning	CodeCode Available
GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking	Jun 1, 2025	4kMath	CodeCode Available
VerityMath: Advancing Mathematical Reasoning by Self-Verification Through Unit Consistency	Nov 13, 2023	MathMathematical Reasoning	CodeCode Available
Give me a hint: Can LLMs take a hint to solve math problems?	Oct 8, 2024	Adversarial RobustnessMath	CodeCode Available
Gap-Filling Prompting Enhances Code-Assisted Mathematical Reasoning	Nov 8, 2024	Mathematical Reasoning	CodeCode Available
Frugal LMs Trained to Invoke Symbolic Solvers Achieve Parameter-Efficient Arithmetic Reasoning	Dec 9, 2023	Arithmetic ReasoningMathematical Reasoning	CodeCode Available
Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence	Mar 26, 2025	Mathematical Reasoning	CodeCode Available
FRoG: Evaluating Fuzzy Reasoning of Generalized Quantifiers in Large Language Models	Jul 1, 2024	Mathematical Reasoning	CodeCode Available
Explanation Selection Using Unlabeled Data for Chain-of-Thought Prompting	Feb 9, 2023	Mathematical ReasoningNatural Language Inference	CodeCode Available
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying	Dec 19, 2024	MathMathematical Reasoning	CodeCode Available
Compositional Processing Emerges in Neural Networks Solving Math Problems	May 19, 2021	MathMathematical Reasoning	CodeCode Available
SWI: Speaking with Intent in Large Language Models	Mar 27, 2025	Mathematical ReasoningQuestion Answering	CodeCode Available
ComplexFormer: Disruptively Advancing Transformer Inference Ability via Head-Specific Complex Vector Attention	May 15, 2025	Code GenerationLanguage Modeling	CodeCode Available
Process-based Self-Rewarding Language Models	Mar 5, 2025	Mathematical Reasoning	CodeCode Available
PSPO*: An Effective Process-supervised Policy Optimization for Reasoning Alignment	Nov 18, 2024	Mathematical Reasoning	CodeCode Available
Agentic-R1: Distilled Dual-Strategy Reasoning	Jul 8, 2025	Mathematical Reasoning	CodeCode Available
Probability-Consistent Preference Optimization for Enhanced LLM Reasoning	May 29, 2025	Mathematical Reasoning	CodeCode Available
Reasoning over Uncertain Text by Generative Large Language Models	Feb 14, 2024	Decision MakingMathematical Reasoning	CodeCode Available

Show:10 25 50

← PrevPage 28 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	Search-o1	Acc	56.7	—	Unverified
6	s1-32B	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	GPT-4o	Accuracy	0.01	—	Unverified
4	o1-mini	Accuracy	0.01	—	Unverified
5	o1-preview	Accuracy	0.01	—	Unverified
6	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified