Arithmetic Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 175 papers

Title	Date	Tasks	Status
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment	May 6, 2024	Arithmetic ReasoningCode Generation	—Unverified
Evaluating Gender Bias in Large Language Models via Chain-of-Thought Prompting	Jan 28, 2024	Arithmetic ReasoningFact Checking	—Unverified
Exploring Group and Symmetry Principles in Large Language Models	Feb 9, 2024	Arithmetic ReasoningNegation	—Unverified
Fact-Consistency Evaluation of Text-to-SQL Generation for Business Intelligence Using Exaone 3.5	Apr 30, 2025	Arithmetic ReasoningText to SQL	—Unverified
Fine-Tuning and Prompt Optimization: Two Great Steps that Work Better Together	Jul 15, 2024	Arithmetic ReasoningLanguage Modeling	—Unverified
FinLMM-R1: Enhancing Financial Reasoning in LMM through Scalable Data and Reward Design	Jun 16, 2025	Answer GenerationArithmetic Reasoning	—Unverified
GaLore+: Boosting Low-Rank Adaptation for LLMs with Cross-Head Projection	Dec 15, 2024	Arithmetic ReasoningText Generation	—Unverified
On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes	Jun 23, 2023	Arithmetic ReasoningKnowledge Distillation	—Unverified
Hint Marginalization for Improved Reasoning in Large Language Models	Dec 17, 2024	Arithmetic Reasoning	—Unverified
Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights	Feb 18, 2025	Arithmetic ReasoningCommon Sense Reasoning	—Unverified
Joint Flashback Adaptation for Forgetting-Resistant Instruction Tuning	May 21, 2025	Arithmetic ReasoningInstruction Following	—Unverified
KwaiYiiMath: Technical Report	Oct 11, 2023	Arithmetic ReasoningGSM8K	—Unverified
Large Language Models are Null-Shot Learners	Jan 16, 2024	Arithmetic ReasoningBenchmarking	—Unverified
Large Language Models Can Self-Correct with Key Condition Verification	May 23, 2024	Arithmetic ReasoningMath	—Unverified
Large Language Models Can Self-Improve	Oct 20, 2022	Arithmetic ReasoningCommon Sense Reasoning	—Unverified
Learning-at-Criticality in Large Language Models for Quantum Field Theory and Beyond	Jun 4, 2025	Arithmetic ReasoningReinforcement Learning (RL)	—Unverified
Least-to-Most Prompting Enables Complex Reasoning in Large Language Models	May 21, 2022	Arithmetic ReasoningMath	—Unverified
Model Card and Evaluations for Claude Models	Jul 11, 2023	Arithmetic ReasoningBug fixing	—Unverified
Neural-Symbolic Recursive Machine for Systematic Generalization	Oct 4, 2022	Arithmetic ReasoningMachine Translation	—Unverified
NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks	Apr 12, 2022	Arithmetic ReasoningMathematical Reasoning	—Unverified
On Representational Dissociation of Language and Arithmetic in Large Language Models	Feb 17, 2025	Arithmetic Reasoning	—Unverified
Making Large Language Models Better Reasoners with Step-Aware Verifier	Jun 6, 2022	Arithmetic ReasoningFew-Shot Learning	—Unverified
OpenChat: Advancing Open-source Language Models with Mixed-Quality Data	Sep 20, 2023	Arithmetic ReasoningCode Generation	—Unverified
Orca 2: Teaching Small Language Models How to Reason	Nov 18, 2023	Arithmetic ReasoningCommon Sense Reasoning	—Unverified
Orca-Math: Unlocking the potential of SLMs in Grade School Math	Feb 16, 2024	Arithmetic ReasoningGSM8K	—Unverified
PERFT: Parameter-Efficient Routed Fine-Tuning for Mixture-of-Expert Model	Nov 12, 2024	Arithmetic ReasoningMixture-of-Experts	—Unverified
Prompt Sketching for Large Language Models	Nov 8, 2023	Arithmetic ReasoningBenchmarking	—Unverified
RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought	May 19, 2023	Arithmetic ReasoningGSM8K	—Unverified
Relating the Seemingly Unrelated: Principled Understanding of Generalization for Generative Models in Arithmetic Reasoning Tasks	Jul 25, 2024	Arithmetic Reasoning	—Unverified
S^2FT: Efficient, Scalable and Generalizable LLM Fine-tuning by Structured Sparsity	Dec 9, 2024	Arithmetic Reasoning	—Unverified
Skin-in-the-Game: Decision Making via Multi-Stakeholder Alignment in LLMs	May 21, 2024	Arithmetic ReasoningDecision Making	—Unverified
Small Language Models are Equation Reasoners	Sep 19, 2024	Arithmetic ReasoningKnowledge Distillation	—Unverified
Solving math word problems with process- and outcome-based feedback	Nov 25, 2022	Arithmetic ReasoningGSM8K	—Unverified
SymBa: Symbolic Backward Chaining for Structured Natural Language Reasoning	Feb 20, 2024	Arithmetic ReasoningGSM8K	—Unverified
The ART of LLM Refinement: Ask, Refine, and Trust	Nov 14, 2023	Arithmetic ReasoningGSM8K	—Unverified
The Claude 3 Model Family: Opus, Sonnet, Haiku	Mar 4, 2024	1 Image, 2*2 StitchingArithmetic Reasoning	—Unverified
The Lottery LLM Hypothesis, Rethinking What Abilities Should LLM Compression Preserve?	Feb 24, 2025	Arithmetic ReasoningCommon Sense Reasoning	—Unverified
The Unreasonable Effectiveness of Eccentric Automatic Prompts	Feb 9, 2024	Arithmetic ReasoningGSM8K	—Unverified
Think Beyond Size: Adaptive Prompting for More Effective Reasoning	Oct 10, 2024	Arithmetic ReasoningComputational Efficiency	—Unverified
Think-to-Talk or Talk-to-Think? When LLMs Come Up with an Answer in Multi-Step Arithmetic Reasoning	Dec 2, 2024	Arithmetic Reasoning	—Unverified
ThoughtProbe: Classifier-Guided Thought Space Exploration Leveraging LLM Intrinsic Reasoning	Apr 9, 2025	Arithmetic Reasoningvalid	—Unverified
TinyGSM: achieving >80% on GSM8k with small language models	Dec 14, 2023	Arithmetic ReasoningGSM8K	—Unverified
Tokenization Constraints in LLMs: A Study of Symbolic and Arithmetic Reasoning Limits	May 20, 2025	Arithmetic Reasoning	—Unverified
Towards Intrinsic Self-Correction Enhancement in Monte Carlo Tree Search Boosted Reasoning via Iterative Preference Learning	Dec 23, 2024	Arithmetic ReasoningGSM8K	—Unverified
Transcending Scaling Laws with 0.1% Extra Compute	Oct 20, 2022	Arithmetic ReasoningCross-Lingual Question Answering	—Unverified
Unlocking Structured Thinking in Language Models with Cognitive Prompting	Oct 3, 2024	Arithmetic ReasoningGSM8K	—Unverified
VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL	May 29, 2025	Arithmetic ReasoningImage Generation	—Unverified
When do you need Chain-of-Thought Prompting for ChatGPT?	Apr 6, 2023	Arithmetic ReasoningMemorization	—Unverified
Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding	Feb 17, 2025	Arithmetic ReasoningChart Understanding	—Unverified
Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs	Dec 19, 2024	Arithmetic ReasoningCode Generation	—Unverified

Show:10 25 50

← PrevPage 3 of 4Next →

All datasets GSM8K MultiArith Game of 24 MathMC MathToF

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude 3.5 Sonnet (HPT)	Accuracy	97.72	—	Unverified
2	DUP prompt upon GPT-4	Accuracy	97.1	—	Unverified
3	Qwen2-Math-72B-Instruct (greedy)	Accuracy	96.7	—	Unverified
4	SFT-Mistral-7B (Metamath, OVM, Smart Ensemble)	Accuracy	96.4	—	Unverified
5	OpenMath2-Llama3.1-70B (majority@256)	Accuracy	96	—	Unverified
6	Jiutian-大模型	Accuracy	95.2	—	Unverified
7	DAMOMath-7B(MetaMath, OVM, BS, Ensemble)	Accuracy	95.1	—	Unverified
8	Claude 3 Opus (0-shot chain-of-thought)	Accuracy	95	—	Unverified
9	OpenMath2-Llama3.1-70B	Accuracy	94.9	—	Unverified
10	GPT-4 (Teaching-Inspired)	Accuracy	94.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Text-davinci-002 (175B)(zero-shot-cot)	Accuracy	78.7	—	Unverified
2	Text-davinci-002 (175B) (zero-shot)	Accuracy	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tree of Thoughts (b=5)	Success	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	92.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	89.2	—	Unverified