Arithmetic Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 175 papers

Title	Date	Tasks	Status	Score
Overcoming Barriers to Skill Injection in Language Modeling: Case Study in Arithmetic	Nov 3, 2022	Arithmetic ReasoningLanguage Modeling	CodeCode Available	5
OMAC: A Broad Optimization Framework for LLM-Based Multi-Agent Collaboration	May 17, 2025	Arithmetic ReasoningCode Generation	CodeCode Available	5
Learning Non-linguistic Skills without Sacrificing Linguistic Proficiency	May 14, 2023	Arithmetic ReasoningMath	CodeCode Available	5
DCR: Quantifying Data Contamination in LLMs Evaluation	Jul 15, 2025	Arithmetic ReasoningBenchmarking	CodeCode Available	5
Least-to-Most Prompting Enables Complex Reasoning in Large Language Models	May 21, 2022	Arithmetic ReasoningMath	CodeCode Available	5
3-in-1: 2D Rotary Adaptation for Efficient Finetuning, Efficient Batching and Composability	Aug 28, 2024	Arithmetic ReasoningGPU	CodeCode Available	5
Improving Arithmetic Reasoning Ability of Large Language Models through Relation Tuples, Verification and Dynamic Feedback	Jun 25, 2024	Arithmetic ReasoningRelation	CodeCode Available	5
Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models	Jun 6, 2024	Arithmetic ReasoningCode Generation	CodeCode Available	5
Frugal LMs Trained to Invoke Symbolic Solvers Achieve Parameter-Efficient Arithmetic Reasoning	Dec 9, 2023	Arithmetic ReasoningMathematical Reasoning	CodeCode Available	5
Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM	Mar 12, 2024	Arithmetic ReasoningCode Generation	CodeCode Available	5
LLM Augmented LLMs: Expanding Capabilities through Composition	Jan 4, 2024	Arithmetic ReasoningCode Generation	CodeCode Available	5
Teaching-Inspired Integrated Prompting Framework: A Novel Approach for Enhancing Reasoning in Large Language Models	Oct 10, 2024	Arithmetic ReasoningMath	CodeCode Available	5
Your Language Model May Think Too Rigidly: Achieving Reasoning Consistency with Symmetry-Enhanced Training	Feb 25, 2025	Arithmetic ReasoningData Augmentation	—Unverified	0
Leveraging LLM Reasoning Enhances Personalized Recommender Systems	Jul 22, 2024	Arithmetic ReasoningRecommendation Systems	—Unverified	0
Arithmetic Reasoning with LLM: Prolog Generation & Permutation	May 28, 2024	Arithmetic ReasoningData Augmentation	—Unverified	0
Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering	Feb 17, 2024	Arithmetic ReasoningMathematical Reasoning	—Unverified	0
Fewer is More: Boosting LLM Reasoning with Reinforced Context Pruning	Dec 14, 2023	Arithmetic ReasoningFew-Shot Learning	—Unverified	0
Can LLMs Maintain Fundamental Abilities under KV Cache Compression?	Feb 4, 2025	Arithmetic ReasoningCode Generation	—Unverified	0
CLoQ: Enhancing Fine-Tuning of Quantized LLMs via Calibrated LoRA Initialization	Jan 30, 2025	Arithmetic ReasoningText Generation	—Unverified	0
Code Prompting: a Neural Symbolic Method for Complex Reasoning in Large Language Models	May 29, 2023	Arithmetic Reasoning	—Unverified	0
Composing Ensembles of Pre-trained Models via Iterative Consensus	Oct 20, 2022	Arithmetic ReasoningImage Generation	—Unverified	0
DiversiGATE: A Comprehensive Framework for Reliable Large Language Models	Jun 22, 2023	Arithmetic ReasoningGSM8K	—Unverified	0
DoTA: Weight-Decomposed Tensor Adaptation for Large Language Models	Dec 30, 2024	Arithmetic ReasoningQuantization	—Unverified	0
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment	May 6, 2024	Arithmetic ReasoningCode Generation	—Unverified	0
Evaluating Gender Bias in Large Language Models via Chain-of-Thought Prompting	Jan 28, 2024	Arithmetic ReasoningFact Checking	—Unverified	0
Exploring Group and Symmetry Principles in Large Language Models	Feb 9, 2024	Arithmetic ReasoningNegation	—Unverified	0
Fact-Consistency Evaluation of Text-to-SQL Generation for Business Intelligence Using Exaone 3.5	Apr 30, 2025	Arithmetic ReasoningText to SQL	—Unverified	0
Fine-Tuning and Prompt Optimization: Two Great Steps that Work Better Together	Jul 15, 2024	Arithmetic ReasoningLanguage Modeling	—Unverified	0
FinLMM-R1: Enhancing Financial Reasoning in LMM through Scalable Data and Reward Design	Jun 16, 2025	Answer GenerationArithmetic Reasoning	—Unverified	0
GaLore+: Boosting Low-Rank Adaptation for LLMs with Cross-Head Projection	Dec 15, 2024	Arithmetic ReasoningText Generation	—Unverified	0
On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes	Jun 23, 2023	Arithmetic ReasoningKnowledge Distillation	—Unverified	0
Hint Marginalization for Improved Reasoning in Large Language Models	Dec 17, 2024	Arithmetic Reasoning	—Unverified	0
Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights	Feb 18, 2025	Arithmetic ReasoningCommon Sense Reasoning	—Unverified	0
Joint Flashback Adaptation for Forgetting-Resistant Instruction Tuning	May 21, 2025	Arithmetic ReasoningInstruction Following	—Unverified	0
KwaiYiiMath: Technical Report	Oct 11, 2023	Arithmetic ReasoningGSM8K	—Unverified	0
Large Language Models are Null-Shot Learners	Jan 16, 2024	Arithmetic ReasoningBenchmarking	—Unverified	0
Large Language Models Can Self-Correct with Key Condition Verification	May 23, 2024	Arithmetic ReasoningMath	—Unverified	0
Large Language Models Can Self-Improve	Oct 20, 2022	Arithmetic ReasoningCommon Sense Reasoning	—Unverified	0
Learning-at-Criticality in Large Language Models for Quantum Field Theory and Beyond	Jun 4, 2025	Arithmetic ReasoningReinforcement Learning (RL)	—Unverified	0
Model Card and Evaluations for Claude Models	Jul 11, 2023	Arithmetic ReasoningBug fixing	—Unverified	0
Neural-Symbolic Recursive Machine for Systematic Generalization	Oct 4, 2022	Arithmetic ReasoningMachine Translation	—Unverified	0
NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks	Apr 12, 2022	Arithmetic ReasoningMathematical Reasoning	—Unverified	0
On Representational Dissociation of Language and Arithmetic in Large Language Models	Feb 17, 2025	Arithmetic Reasoning	—Unverified	0
Making Large Language Models Better Reasoners with Step-Aware Verifier	Jun 6, 2022	Arithmetic ReasoningFew-Shot Learning	—Unverified	0
Orca 2: Teaching Small Language Models How to Reason	Nov 18, 2023	Arithmetic ReasoningCommon Sense Reasoning	—Unverified	0
Orca-Math: Unlocking the potential of SLMs in Grade School Math	Feb 16, 2024	Arithmetic ReasoningGSM8K	—Unverified	0
PERFT: Parameter-Efficient Routed Fine-Tuning for Mixture-of-Expert Model	Nov 12, 2024	Arithmetic ReasoningMixture-of-Experts	—Unverified	0
Prompt Sketching for Large Language Models	Nov 8, 2023	Arithmetic ReasoningBenchmarking	—Unverified	0
RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought	May 19, 2023	Arithmetic ReasoningGSM8K	—Unverified	0
Relating the Seemingly Unrelated: Principled Understanding of Generalization for Generative Models in Arithmetic Reasoning Tasks	Jul 25, 2024	Arithmetic Reasoning	—Unverified	0

Show:10 25 50

← PrevPage 3 of 4Next →

All datasets GSM8K MultiArith Game of 24 MathMC MathToF

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude 3.5 Sonnet (HPT)	Accuracy	97.72	—	Unverified
2	DUP prompt upon GPT-4	Accuracy	97.1	—	Unverified
3	Qwen2-Math-72B-Instruct (greedy)	Accuracy	96.7	—	Unverified
4	SFT-Mistral-7B (Metamath, OVM, Smart Ensemble)	Accuracy	96.4	—	Unverified
5	OpenMath2-Llama3.1-70B (majority@256)	Accuracy	96	—	Unverified
6	Jiutian-大模型	Accuracy	95.2	—	Unverified
7	DAMOMath-7B(MetaMath, OVM, BS, Ensemble)	Accuracy	95.1	—	Unverified
8	Claude 3 Opus (0-shot chain-of-thought)	Accuracy	95	—	Unverified
9	OpenMath2-Llama3.1-70B	Accuracy	94.9	—	Unverified
10	GPT-4 (Teaching-Inspired)	Accuracy	94.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Text-davinci-002 (175B)(zero-shot-cot)	Accuracy	78.7	—	Unverified
2	Text-davinci-002 (175B) (zero-shot)	Accuracy	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tree of Thoughts (b=5)	Success	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	92.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	89.2	—	Unverified