Math Word Problem Solving

A math word problem is a mathematical exercise (such as in a textbook, worksheet, or exam) where significant background information on the problem is presented in ordinary language rather than in mathematical notation. As most word problems involve a narrative of some sort, they are sometimes referred to as story problems and may vary in the amount of technical language used.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 107 papers

Title	Date	Tasks	Status	Hype
Qwen2 Technical Report	Jul 15, 2024	Arithmetic ReasoningGSM8K	CodeCode Available	13
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models	Feb 5, 2024	Arithmetic ReasoningMath	CodeCode Available	9
Llama 2: Open Foundation and Fine-Tuned Chat Models	Jul 18, 2023	Arithmetic Reasoning	CodeCode Available	8
LLaMA: Open and Efficient Foundation Language Models	Feb 27, 2023	Arithmetic ReasoningCode Generation	CodeCode Available	7
Sparks of Artificial General Intelligence: Early experiments with GPT-4	Mar 22, 2023	Arithmetic ReasoningMathematical Reasoning	CodeCode Available	6
Mistral 7B	Oct 10, 2023	answerability predictionArithmetic Reasoning	CodeCode Available	6
WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct	Aug 18, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	5
Galactica: A Large Language Model for Science	Nov 16, 2022	AnachronismsBias Detection	CodeCode Available	4
Let's Verify Step by Step	May 31, 2023	Active LearningMath	CodeCode Available	4
Mixtral of Experts	Jan 8, 2024	Code GenerationCommon Sense Reasoning	CodeCode Available	4
OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset	Feb 15, 2024	Arithmetic ReasoningGSM8K	CodeCode Available	4
OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data	Oct 2, 2024	Arithmetic ReasoningLarge Language Model	CodeCode Available	4
ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving	Sep 29, 2023	Arithmetic ReasoningComputational Efficiency	CodeCode Available	3
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs	Jun 26, 2024	Arithmetic ReasoningGSM8K	CodeCode Available	3
PAL: Program-aided Language Models	Nov 18, 2022	Arithmetic ReasoningGSM8K	CodeCode Available	3
Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context	Mar 8, 2024	1 Image, 2*2 StitchingCode Generation	CodeCode Available	3
AlphaMath Almost Zero: Process Supervision without Process	May 6, 2024	Mathematical ReasoningMath Word Problem Solving	CodeCode Available	3
MACM: Utilizing a Multi-Agent System for Condition Mining in Solving Complex Mathematical Problems	Apr 6, 2024	Logical ReasoningMath	CodeCode Available	2
Progressive-Hint Prompting Improves Reasoning in Large Language Models	Apr 19, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	2
Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks	Jan 5, 2024	Arithmetic ReasoningCode Generation	CodeCode Available	2
DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving	Jun 18, 2024	Arithmetic ReasoningMath	CodeCode Available	2
MuggleMath: Assessing the Impact of Query and Response Augmentation on Math Reasoning	Oct 9, 2023	Arithmetic ReasoningData Augmentation	CodeCode Available	2
Multi-View Reasoning: Consistent Contrastive Learning for Math Word Problem	Oct 21, 2022	Contrastive LearningMath	CodeCode Available	2
An Empirical Study of Data Ability Boundary in LLMs' Math Reasoning	Feb 23, 2024	Arithmetic ReasoningAutomated Theorem Proving	CodeCode Available	2
DeBERTa: Decoding-enhanced BERT with Disentangled Attention	Jun 5, 2020	Common Sense ReasoningCoreference Resolution	CodeCode Available	2
An Expression Tree Decoding Strategy for Mathematical Equation Generation	Oct 14, 2023	MathMathematical Reasoning	CodeCode Available	2
Large Language Models are Zero-Shot Reasoners	May 24, 2022	Arithmetic ReasoningCommon Sense Reasoning	CodeCode Available	2
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers	Feb 29, 2024	GSM8KMath	CodeCode Available	2
Cumulative Reasoning with Large Language Models	Aug 8, 2023	Decision MakingLogical Reasoning	CodeCode Available	2
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models	Sep 21, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	2
Solving Quantitative Reasoning Problems with Language Models	Jun 29, 2022	Arithmetic ReasoningLanguage Modeling	CodeCode Available	2
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning	Oct 5, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	2
Measuring Mathematical Problem Solving With the MATH Dataset	Mar 5, 2021	MathMathematical Problem-Solving	CodeCode Available	2
Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification	Aug 15, 2023	Arithmetic ReasoningMath	CodeCode Available	2
ELASTIC: Numerical Reasoning with Adaptive Symbolic Compiler	Oct 18, 2022	Math Word Problem SolvingQuestion Answering	CodeCode Available	1
Do Multilingual Language Models Think Better in English?	Aug 2, 2023	Common Sense ReasoningCross-Lingual Natural Language Inference	CodeCode Available	1
Ape210K: A Large-Scale and Template-Rich Dataset of Math Word Problems	Sep 24, 2020	DiversityMath	CodeCode Available	1
Recall and Learn: A Memory-augmented Solver for Math Word Problems	Sep 27, 2021	MathMath Word Problem Solving	CodeCode Available	1
MathChat: Converse to Tackle Challenging Math Problems with LLM Agents	Jun 2, 2023	Elementary MathematicsMath	CodeCode Available	1
RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning	May 23, 2023	In-Context LearningLanguage Modelling	CodeCode Available	1
FinanceMath: Knowledge-Intensive Math Reasoning in Finance Domains	Nov 16, 2023	MathMath Word Problem Solving	CodeCode Available	1
MWP-BERT: Numeracy-Augmented Pre-training for Math Word Problem Solving	Jul 28, 2021	Common Sense ReasoningLanguage Modeling	CodeCode Available	1
IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning	Oct 25, 2021	Arithmetic ReasoningMathematical Question Answering	CodeCode Available	1
Automatic Model Selection with Large Language Models for Reasoning	May 23, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	1
MWPToolkit: An Open-Source Framework for Deep Learning-Based Math Word Problem Solvers	Sep 2, 2021	MathMath Word Problem Solving	CodeCode Available	1
Graph-to-Tree Neural Networks for Learning Structured Input-Output Translation with Applications to Semantic Parsing and Math Word Problem	Apr 7, 2020	DecoderMachine Translation	CodeCode Available	1
Graph-to-Tree Learning for Solving Math Word Problems	Jul 1, 2020	DecoderMath	CodeCode Available	1
Automatic Generation of Socratic Subquestions for Teaching Math Word Problems	Nov 23, 2022	MathMath Word Problem Solving	CodeCode Available	1
Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems	Apr 23, 2024	Arithmetic ReasoningGSM8K	CodeCode Available	1
Augmenting Math Word Problems via Iterative Question Composing	Jan 17, 2024	MathMathematical Reasoning	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets MATH SVAMP MAWPS Math23K ALG514 ASDiv-A ParaMAWPS DRAW-1K MathQA SVAMP (1:N)GSM-Plus MATH minival

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Gemini 2.0 Flash Experimental	Accuracy	89.7	—	Unverified
2	Qwen2.5-Math-72B-Instruct(TIR,Greedy)	Accuracy	88.1	—	Unverified
3	GPT-4 Turbo (MACM, w/code, voting)	Accuracy	87.92	—	Unverified
4	Qwen2.5-Math-72B-Instruct(COT,Greedy)	Accuracy	85.9	—	Unverified
5	Qwen2.5-Math-7B-Instruct(TIR,Greedy)	Accuracy	85.2	—	Unverified
6	GPT-4-code model (CSV, w/ code, SC, k=16)	Accuracy	84.3	—	Unverified
7	Qwen2-Math-72B-Instruct(greedy)	Accuracy	84	—	Unverified
8	Qwen2.5-Math-7B-Instruct(COT,Greedy)	Accuracy	83.6	—	Unverified
9	Qwen2.5-Math-1.5B-Instruct(TIR,Greedy)	Accuracy	79.9	—	Unverified
10	OpenMath2-Llama3.1-70B (majority@256)	Accuracy	79.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 DUP	Accuracy	94.2	—	Unverified
2	GPT-4 (Teaching-Inspired)	Execution Accuracy	93.9	—	Unverified
3	GPT-4 (Model Selection)	Execution Accuracy	93.7	—	Unverified
4	Qwen2(CoT + Code Interpreter)	Execution Accuracy	92.3	—	Unverified
5	GPT-4 (PHP)	Execution Accuracy	91.9	—	Unverified
6	OpenMath-CodeLlama-70B (w/ code)	Execution Accuracy	87.8	—	Unverified
7	MathCoder-L-70B	Execution Accuracy	84.9	—	Unverified
8	PoT_Eng (self-consistency @ 5)	Execution Accuracy	83.7	—	Unverified
9	CoT_Eng (self-consistency @ 5)	Execution Accuracy	82.5	—	Unverified
10	MMOS-CODE-34B(0-shot)	Execution Accuracy	80.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OpenMath-CodeLlama-70B (w/ code)	Accuracy (%)	95.7	—	Unverified
2	MsAT-DeductReasoner	Accuracy (%)	94.3	—	Unverified
3	ATHENA (roberta-large)	Accuracy (%)	93	—	Unverified
4	Exp-Tree	Accuracy (%)	92.3	—	Unverified
5	Multi-view	Accuracy (%)	92.3	—	Unverified
6	ATHENA (roberta-base)	Accuracy (%)	92.2	—	Unverified
7	Roberta-DeductReasoner	Accuracy (%)	92	—	Unverified
8	DeBERTa (PM + VM)	Accuracy (%)	91	—	Unverified
9	EPT	Accuracy (%)	88.7	—	Unverified
10	Graph2Tree with RoBERTa	Accuracy (%)	88.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy (5-fold)	94.3	—	Unverified
2	ATHENA (roberta-large)	Accuracy (training-test)	86.5	—	Unverified
3	Multi-view* (ours)	Accuracy (5-fold)	85.2	—	Unverified
4	ATHENA (roberta-base)	Accuracy (training-test)	84.4	—	Unverified
5	Generate and Rank	Accuracy (5-fold)	84.3	—	Unverified
6	Exp-Tree	Accuracy (5-fold)	84.1	—	Unverified
7	REAL2: Memory-augmented Solver	Accuracy (5-fold)	83.18	—	Unverified
8	Roberta-DeductReasoner	Accuracy (5-fold)	83	—	Unverified
9	MWP-BERT	Accuracy (5-fold)	82.4	—	Unverified
10	Recall and Learn	Accuracy (5-fold)	80.8	—	Unverified