Arithmetic Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–175 of 175 papers

Title	Date	Tasks	Status
0/1 Deep Neural Networks via Block Coordinate Descent	Jun 19, 2022	10-shot image generation	—Unverified
Self-Evaluation Guided Beam Search for Reasoning	May 1, 2023	Arithmetic ReasoningGSM8K	—Unverified
Hint of Thought prompting: an explainable and zero-shot approach to reasoning tasks with LLMs	May 19, 2023	Arithmetic ReasoningGSM8K	—Unverified
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training	Jan 28, 2025	Arithmetic ReasoningMemorization	—Unverified
SBoRA: Low-Rank Adaptation with Regional Weight Updates	Jul 7, 2024	Arithmetic Reasoningparameter-efficient fine-tuning	CodeCode Available
Prompt Space Optimizing Few-shot Reasoning Success with Large Language Models	Jun 6, 2023	Arithmetic ReasoningIn-Context Learning	CodeCode Available
Calc-X and Calcformers: Empowering Arithmetical Chain-of-Thought through Interaction with Symbolic Systems	May 24, 2023	Arithmetic ReasoningGSM8K	CodeCode Available
Self-training Language Models for Arithmetic Reasoning	Jul 11, 2024	Arithmetic Reasoning	CodeCode Available
3-in-1: 2D Rotary Adaptation for Efficient Finetuning, Efficient Batching and Composability	Aug 28, 2024	Arithmetic ReasoningGPU	CodeCode Available
Seq-VCR: Preventing Collapse in Intermediate Transformer Representations for Enhanced Reasoning	Nov 4, 2024	Arithmetic ReasoningDecoder	CodeCode Available
DiaBlo: Diagonal Blocks Are Sufficient For Finetuning	Jun 3, 2025	Arithmetic ReasoningCode Generation	CodeCode Available
DCR: Quantifying Data Contamination in LLMs Evaluation	Jul 15, 2025	Arithmetic ReasoningBenchmarking	CodeCode Available
CodeT5+: Open Code Large Language Models for Code Understanding and Generation	May 13, 2023	Arithmetic ReasoningCode Completion	CodeCode Available
PaD: Program-aided Distillation Can Teach Small Models Reasoning Better than Chain-of-thought Fine-tuning	May 23, 2023	Arithmetic ReasoningGSM8K	CodeCode Available
ChatGPT as a Math Questioner? Evaluating ChatGPT on Generating Pre-university Math Questions	Dec 4, 2023	Arithmetic ReasoningMath	CodeCode Available
Overcoming Barriers to Skill Injection in Language Modeling: Case Study in Arithmetic	Nov 3, 2022	Arithmetic ReasoningLanguage Modeling	CodeCode Available
OMAC: A Broad Optimization Framework for LLM-Based Multi-Agent Collaboration	May 17, 2025	Arithmetic ReasoningCode Generation	CodeCode Available
Mathematical Reasoning for Unmanned Aerial Vehicles: A RAG-Based Approach for Complex Arithmetic Reasoning	Jun 5, 2025	Arithmetic ReasoningMath	CodeCode Available
LLM Augmented LLMs: Expanding Capabilities through Composition	Jan 4, 2024	Arithmetic ReasoningCode Generation	CodeCode Available
Learning Non-linguistic Skills without Sacrificing Linguistic Proficiency	May 14, 2023	Arithmetic ReasoningMath	CodeCode Available
Improving Arithmetic Reasoning Ability of Large Language Models through Relation Tuples, Verification and Dynamic Feedback	Jun 25, 2024	Arithmetic ReasoningRelation	CodeCode Available
Teaching-Inspired Integrated Prompting Framework: A Novel Approach for Enhancing Reasoning in Large Language Models	Oct 10, 2024	Arithmetic ReasoningMath	CodeCode Available
Frugal LMs Trained to Invoke Symbolic Solvers Achieve Parameter-Efficient Arithmetic Reasoning	Dec 9, 2023	Arithmetic ReasoningMathematical Reasoning	CodeCode Available
DS@GT at CheckThat! 2025: Evaluating Context and Tokenization Strategies for Numerical Fact Verification	Jul 8, 2025	ARCArithmetic Reasoning	CodeCode Available
Do Deep Neural Networks Capture Compositionality in Arithmetic Reasoning?	Feb 15, 2023	Arithmetic Reasoning	CodeCode Available

Show:10 25 50

← PrevPage 4 of 4Next →

All datasets GSM8K MultiArith Game of 24 MathMC MathToF

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude 3.5 Sonnet (HPT)	Accuracy	97.72	—	Unverified
2	DUP prompt upon GPT-4	Accuracy	97.1	—	Unverified
3	Qwen2-Math-72B-Instruct (greedy)	Accuracy	96.7	—	Unverified
4	SFT-Mistral-7B (Metamath, OVM, Smart Ensemble)	Accuracy	96.4	—	Unverified
5	OpenMath2-Llama3.1-70B (majority@256)	Accuracy	96	—	Unverified
6	Jiutian-大模型	Accuracy	95.2	—	Unverified
7	DAMOMath-7B(MetaMath, OVM, BS, Ensemble)	Accuracy	95.1	—	Unverified
8	Claude 3 Opus (0-shot chain-of-thought)	Accuracy	95	—	Unverified
9	OpenMath2-Llama3.1-70B	Accuracy	94.9	—	Unverified
10	GPT-4 (Teaching-Inspired)	Accuracy	94.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Text-davinci-002 (175B)(zero-shot-cot)	Accuracy	78.7	—	Unverified
2	Text-davinci-002 (175B) (zero-shot)	Accuracy	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tree of Thoughts (b=5)	Success	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	92.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	89.2	—	Unverified