Arithmetic Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 126–150 of 175 papers

Title	Date	Tasks	Status
SBoRA: Low-Rank Adaptation with Regional Weight Updates	Jul 7, 2024	Arithmetic Reasoningparameter-efficient fine-tuning	CodeCode Available
Improving Arithmetic Reasoning Ability of Large Language Models through Relation Tuples, Verification and Dynamic Feedback	Jun 25, 2024	Arithmetic ReasoningRelation	CodeCode Available
Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models	Jun 6, 2024	Arithmetic ReasoningCode Generation	CodeCode Available
Arithmetic Reasoning with LLM: Prolog Generation & Permutation	May 28, 2024	Arithmetic ReasoningData Augmentation	—Unverified
Large Language Models Can Self-Correct with Key Condition Verification	May 23, 2024	Arithmetic ReasoningMath	—Unverified
Skin-in-the-Game: Decision Making via Multi-Stakeholder Alignment in LLMs	May 21, 2024	Arithmetic ReasoningDecision Making	—Unverified
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment	May 6, 2024	Arithmetic ReasoningCode Generation	—Unverified
Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM	Mar 12, 2024	Arithmetic ReasoningCode Generation	CodeCode Available
The Claude 3 Model Family: Opus, Sonnet, Haiku	Mar 4, 2024	1 Image, 2*2 StitchingArithmetic Reasoning	—Unverified
SymBa: Symbolic Backward Chaining for Structured Natural Language Reasoning	Feb 20, 2024	Arithmetic ReasoningGSM8K	—Unverified
Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering	Feb 17, 2024	Arithmetic ReasoningMathematical Reasoning	—Unverified
Orca-Math: Unlocking the potential of SLMs in Grade School Math	Feb 16, 2024	Arithmetic ReasoningGSM8K	—Unverified
Exploring Group and Symmetry Principles in Large Language Models	Feb 9, 2024	Arithmetic ReasoningNegation	—Unverified
The Unreasonable Effectiveness of Eccentric Automatic Prompts	Feb 9, 2024	Arithmetic ReasoningGSM8K	—Unverified
Evaluating Gender Bias in Large Language Models via Chain-of-Thought Prompting	Jan 28, 2024	Arithmetic ReasoningFact Checking	—Unverified
Large Language Models are Null-Shot Learners	Jan 16, 2024	Arithmetic ReasoningBenchmarking	—Unverified
LLM Augmented LLMs: Expanding Capabilities through Composition	Jan 4, 2024	Arithmetic ReasoningCode Generation	CodeCode Available
TinyGSM: achieving >80% on GSM8k with small language models	Dec 14, 2023	Arithmetic ReasoningGSM8K	—Unverified
Fewer is More: Boosting LLM Reasoning with Reinforced Context Pruning	Dec 14, 2023	Arithmetic ReasoningFew-Shot Learning	—Unverified
Frugal LMs Trained to Invoke Symbolic Solvers Achieve Parameter-Efficient Arithmetic Reasoning	Dec 9, 2023	Arithmetic ReasoningMathematical Reasoning	CodeCode Available
ChatGPT as a Math Questioner? Evaluating ChatGPT on Generating Pre-university Math Questions	Dec 4, 2023	Arithmetic ReasoningMath	CodeCode Available
Orca 2: Teaching Small Language Models How to Reason	Nov 18, 2023	Arithmetic ReasoningCommon Sense Reasoning	—Unverified
The ART of LLM Refinement: Ask, Refine, and Trust	Nov 14, 2023	Arithmetic ReasoningGSM8K	—Unverified
Prompt Sketching for Large Language Models	Nov 8, 2023	Arithmetic ReasoningBenchmarking	—Unverified
KwaiYiiMath: Technical Report	Oct 11, 2023	Arithmetic ReasoningGSM8K	—Unverified

Show:10 25 50

← PrevPage 6 of 7Next →

All datasets GSM8K MultiArith Game of 24 MathMC MathToF

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude 3.5 Sonnet (HPT)	Accuracy	97.72	—	Unverified
2	DUP prompt upon GPT-4	Accuracy	97.1	—	Unverified
3	Qwen2-Math-72B-Instruct (greedy)	Accuracy	96.7	—	Unverified
4	SFT-Mistral-7B (Metamath, OVM, Smart Ensemble)	Accuracy	96.4	—	Unverified
5	OpenMath2-Llama3.1-70B (majority@256)	Accuracy	96	—	Unverified
6	Jiutian-大模型	Accuracy	95.2	—	Unverified
7	DAMOMath-7B(MetaMath, OVM, BS, Ensemble)	Accuracy	95.1	—	Unverified
8	Claude 3 Opus (0-shot chain-of-thought)	Accuracy	95	—	Unverified
9	OpenMath2-Llama3.1-70B	Accuracy	94.9	—	Unverified
10	GPT-4 (Teaching-Inspired)	Accuracy	94.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Text-davinci-002 (175B)(zero-shot-cot)	Accuracy	78.7	—	Unverified
2	Text-davinci-002 (175B) (zero-shot)	Accuracy	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tree of Thoughts (b=5)	Success	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	92.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	89.2	—	Unverified