Arithmetic Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–175 of 175 papers

Title	Date	Tasks	Status	Hype
Large Language Models Can Be Easily Distracted by Irrelevant Context	Jan 31, 2023	Arithmetic ReasoningLanguage Modeling	CodeCode Available	1
Batch Prompting: Efficient Inference with Large Language Model APIs	Jan 19, 2023	Arithmetic ReasoningIn-Context Learning	CodeCode Available	1
Large Language Models are Better Reasoners with Self-Verification	Dec 19, 2022	Arithmetic ReasoningCommon Sense Reasoning	CodeCode Available	1
Reasoning with Language Model Prompting: A Survey	Dec 19, 2022	Arithmetic ReasoningCommon Sense Reasoning	CodeCode Available	3
Solving math word problems with process- and outcome-based feedback	Nov 25, 2022	Arithmetic ReasoningGSM8K	—Unverified	0
PAL: Program-aided Language Models	Nov 18, 2022	Arithmetic ReasoningGSM8K	CodeCode Available	3
Overcoming Barriers to Skill Injection in Language Modeling: Case Study in Arithmetic	Nov 3, 2022	Arithmetic ReasoningLanguage Modeling	CodeCode Available	0
Solving Math Word Problems via Cooperative Reasoning induced Language Models	Oct 28, 2022	Arithmetic ReasoningMath	CodeCode Available	1
Composing Ensembles of Pre-trained Models via Iterative Consensus	Oct 20, 2022	Arithmetic ReasoningImage Generation	—Unverified	0
Large Language Models Can Self-Improve	Oct 20, 2022	Arithmetic ReasoningCommon Sense Reasoning	—Unverified	0
Transcending Scaling Laws with 0.1% Extra Compute	Oct 20, 2022	Arithmetic ReasoningCross-Lingual Question Answering	—Unverified	0
OpenCQA: Open-ended Question Answering with Charts	Oct 12, 2022	Arithmetic ReasoningDescriptive	CodeCode Available	1
Neural-Symbolic Recursive Machine for Systematic Generalization	Oct 4, 2022	Arithmetic ReasoningMachine Translation	—Unverified	0
Solving Quantitative Reasoning Problems with Language Models	Jun 29, 2022	Arithmetic ReasoningLanguage Modeling	CodeCode Available	2
0/1 Deep Neural Networks via Block Coordinate Descent	Jun 19, 2022	10-shot image generation	—Unverified	0
Making Large Language Models Better Reasoners with Step-Aware Verifier	Jun 6, 2022	Arithmetic ReasoningFew-Shot Learning	—Unverified	0
Learning Math Reasoning from Self-Sampled Correct and Partially-Correct Solutions	May 28, 2022	Arithmetic ReasoningEfficient Exploration	CodeCode Available	1
Large Language Models are Zero-Shot Reasoners	May 24, 2022	Arithmetic ReasoningCommon Sense Reasoning	CodeCode Available	2
Least-to-Most Prompting Enables Complex Reasoning in Large Language Models	May 21, 2022	Arithmetic ReasoningMath	CodeCode Available	0
UL2: Unifying Language Learning Paradigms	May 10, 2022	Arithmetic ReasoningCommon Sense Reasoning	CodeCode Available	1
NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks	Apr 12, 2022	Arithmetic ReasoningMathematical Reasoning	—Unverified	0
Self-Consistency Improves Chain of Thought Reasoning in Language Models	Mar 21, 2022	ARCArithmetic Reasoning	CodeCode Available	1
IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning	Oct 25, 2021	Arithmetic ReasoningMathematical Question Answering	CodeCode Available	1
Inter-GPS: Interpretable Geometry Problem Solving with Formal Language and Symbolic Reasoning	May 10, 2021	Arithmetic ReasoningGeometry Problem Solving	CodeCode Available	1
Learning to Reason for Text Generation from Scientific Tables	Apr 16, 2021	Arithmetic ReasoningArticles	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 4Next →

All datasets GSM8K MultiArith Game of 24 MathMC MathToF

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude 3.5 Sonnet (HPT)	Accuracy	97.72	—	Unverified
2	DUP prompt upon GPT-4	Accuracy	97.1	—	Unverified
3	Qwen2-Math-72B-Instruct (greedy)	Accuracy	96.7	—	Unverified
4	SFT-Mistral-7B (Metamath, OVM, Smart Ensemble)	Accuracy	96.4	—	Unverified
5	OpenMath2-Llama3.1-70B (majority@256)	Accuracy	96	—	Unverified
6	Jiutian-大模型	Accuracy	95.2	—	Unverified
7	DAMOMath-7B(MetaMath, OVM, BS, Ensemble)	Accuracy	95.1	—	Unverified
8	Claude 3 Opus (0-shot chain-of-thought)	Accuracy	95	—	Unverified
9	OpenMath2-Llama3.1-70B	Accuracy	94.9	—	Unverified
10	GPT-4 (Teaching-Inspired)	Accuracy	94.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Text-davinci-002 (175B)(zero-shot-cot)	Accuracy	78.7	—	Unverified
2	Text-davinci-002 (175B) (zero-shot)	Accuracy	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tree of Thoughts (b=5)	Success	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	92.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	89.2	—	Unverified