SOTAVerified|Agents Browse Leaderboard About

Arithmetic Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 61–70 of 175 papers

Title	Date	Tasks	Status	Hype	Score
Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics	Oct 28, 2024	Arithmetic ReasoningMath	CodeCode Available	1	5
MoT: Memory-of-Thought Enables ChatGPT to Self-Improve	May 9, 2023	Arithmetic ReasoningNatural Language Inference	CodeCode Available	1	5
Bridging the Gap between Different Vocabularies for LLM Ensemble	Apr 15, 2024	Arithmetic ReasoningData-to-Text Generation	CodeCode Available	1	5
DOMINO: A Dual-System for Multi-step Visual Language Reasoning	Oct 4, 2023	Arithmetic ReasoningLanguage Modeling	CodeCode Available	1	5
Learning Math Reasoning from Self-Sampled Correct and Partially-Correct Solutions	May 28, 2022	Arithmetic ReasoningEfficient Exploration	CodeCode Available	1	5
OpenCQA: Open-ended Question Answering with Charts	Oct 12, 2022	Arithmetic ReasoningDescriptive	CodeCode Available	1	5
Distillation Contrastive Decoding: Improving LLMs Reasoning with Contrastive Decoding and Distillation	Feb 21, 2024	Arithmetic ReasoningGSM8K	CodeCode Available	1	5
Large Language Models are Better Reasoners with Self-Verification	Dec 19, 2022	Arithmetic ReasoningCommon Sense Reasoning	CodeCode Available	1	5
Language Imbalance Driven Rewarding for Multilingual Self-improving	Oct 11, 2024	Arithmetic ReasoningInstruction Following	CodeCode Available	1	5
DialCoT Meets PPO: Decomposing and Exploring Reasoning Paths in Smaller Language Models	Oct 8, 2023	Arithmetic Reasoning	CodeCode Available	1	5

Show:10 25 50

← PrevPage 7 of 18Next →

All datasets GSM8K MultiArith Game of 24 MathMC MathToF

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude 3.5 Sonnet (HPT)	Accuracy	97.72	—	Unverified
2	DUP prompt upon GPT-4	Accuracy	97.1	—	Unverified
3	Qwen2-Math-72B-Instruct (greedy)	Accuracy	96.7	—	Unverified
4	SFT-Mistral-7B (Metamath, OVM, Smart Ensemble)	Accuracy	96.4	—	Unverified
5	OpenMath2-Llama3.1-70B (majority@256)	Accuracy	96	—	Unverified
6	Jiutian-大模型	Accuracy	95.2	—	Unverified
7	DAMOMath-7B(MetaMath, OVM, BS, Ensemble)	Accuracy	95.1	—	Unverified
8	Claude 3 Opus (0-shot chain-of-thought)	Accuracy	95	—	Unverified
9	OpenMath2-Llama3.1-70B	Accuracy	94.9	—	Unverified
10	GPT-4 (Teaching-Inspired)	Accuracy	94.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Text-davinci-002 (175B)(zero-shot-cot)	Accuracy	78.7	—	Unverified
2	Text-davinci-002 (175B) (zero-shot)	Accuracy	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tree of Thoughts (b=5)	Success	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	92.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	89.2	—	Unverified