Arithmetic Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–175 of 175 papers

Title	Date	Tasks	Status
OpenChat: Advancing Open-source Language Models with Mixed-Quality Data	Sep 20, 2023	Arithmetic ReasoningCode Generation	—Unverified
Model Card and Evaluations for Claude Models	Jul 11, 2023	Arithmetic ReasoningBug fixing	—Unverified
On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes	Jun 23, 2023	Arithmetic ReasoningKnowledge Distillation	—Unverified
DiversiGATE: A Comprehensive Framework for Reliable Large Language Models	Jun 22, 2023	Arithmetic ReasoningGSM8K	—Unverified
Prompt Space Optimizing Few-shot Reasoning Success with Large Language Models	Jun 6, 2023	Arithmetic ReasoningIn-Context Learning	CodeCode Available
Code Prompting: a Neural Symbolic Method for Complex Reasoning in Large Language Models	May 29, 2023	Arithmetic Reasoning	—Unverified
Calc-X and Calcformers: Empowering Arithmetical Chain-of-Thought through Interaction with Symbolic Systems	May 24, 2023	Arithmetic ReasoningGSM8K	CodeCode Available
PaD: Program-aided Distillation Can Teach Small Models Reasoning Better than Chain-of-thought Fine-tuning	May 23, 2023	Arithmetic ReasoningGSM8K	CodeCode Available
Hint of Thought prompting: an explainable and zero-shot approach to reasoning tasks with LLMs	May 19, 2023	Arithmetic ReasoningGSM8K	—Unverified
RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought	May 19, 2023	Arithmetic ReasoningGSM8K	—Unverified
Learning Non-linguistic Skills without Sacrificing Linguistic Proficiency	May 14, 2023	Arithmetic ReasoningMath	CodeCode Available
CodeT5+: Open Code Large Language Models for Code Understanding and Generation	May 13, 2023	Arithmetic ReasoningCode Completion	CodeCode Available
Self-Evaluation Guided Beam Search for Reasoning	May 1, 2023	Arithmetic ReasoningGSM8K	—Unverified
When do you need Chain-of-Thought Prompting for ChatGPT?	Apr 6, 2023	Arithmetic ReasoningMemorization	—Unverified
Do Deep Neural Networks Capture Compositionality in Arithmetic Reasoning?	Feb 15, 2023	Arithmetic Reasoning	CodeCode Available
Solving math word problems with process- and outcome-based feedback	Nov 25, 2022	Arithmetic ReasoningGSM8K	—Unverified
Overcoming Barriers to Skill Injection in Language Modeling: Case Study in Arithmetic	Nov 3, 2022	Arithmetic ReasoningLanguage Modeling	CodeCode Available
Large Language Models Can Self-Improve	Oct 20, 2022	Arithmetic ReasoningCommon Sense Reasoning	—Unverified
Composing Ensembles of Pre-trained Models via Iterative Consensus	Oct 20, 2022	Arithmetic ReasoningImage Generation	—Unverified
Transcending Scaling Laws with 0.1% Extra Compute	Oct 20, 2022	Arithmetic ReasoningCross-Lingual Question Answering	—Unverified
Neural-Symbolic Recursive Machine for Systematic Generalization	Oct 4, 2022	Arithmetic ReasoningMachine Translation	—Unverified
0/1 Deep Neural Networks via Block Coordinate Descent	Jun 19, 2022	10-shot image generation	—Unverified
Making Large Language Models Better Reasoners with Step-Aware Verifier	Jun 6, 2022	Arithmetic ReasoningFew-Shot Learning	—Unverified
Least-to-Most Prompting Enables Complex Reasoning in Large Language Models	May 21, 2022	Arithmetic ReasoningMath	—Unverified
NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks	Apr 12, 2022	Arithmetic ReasoningMathematical Reasoning	—Unverified

Show:10 25 50

← PrevPage 4 of 4Next →

All datasets GSM8K MultiArith Game of 24 MathMC MathToF

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude 3.5 Sonnet (HPT)	Accuracy	97.72	—	Unverified
2	DUP prompt upon GPT-4	Accuracy	97.1	—	Unverified
3	Qwen2-Math-72B-Instruct (greedy)	Accuracy	96.7	—	Unverified
4	SFT-Mistral-7B (Metamath, OVM, Smart Ensemble)	Accuracy	96.4	—	Unverified
5	OpenMath2-Llama3.1-70B (majority@256)	Accuracy	96	—	Unverified
6	Jiutian-大模型	Accuracy	95.2	—	Unverified
7	DAMOMath-7B(MetaMath, OVM, BS, Ensemble)	Accuracy	95.1	—	Unverified
8	Claude 3 Opus (0-shot chain-of-thought)	Accuracy	95	—	Unverified
9	OpenMath2-Llama3.1-70B	Accuracy	94.9	—	Unverified
10	GPT-4 (Teaching-Inspired)	Accuracy	94.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Text-davinci-002 (175B)(zero-shot-cot)	Accuracy	78.7	—	Unverified
2	Text-davinci-002 (175B) (zero-shot)	Accuracy	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tree of Thoughts (b=5)	Success	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	92.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	89.2	—	Unverified