Arithmetic Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 175 papers

Title	Date	Tasks	Status	Hype
Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions	Jan 17, 2024	Arithmetic ReasoningCode Generation	CodeCode Available	1
Turning Dust into Gold: Distilling Complex Reasoning Capabilities from LLMs by Leveraging Negative Data	Dec 20, 2023	Arithmetic Reasoning	CodeCode Available	1
Gemini: A Family of Highly Capable Multimodal Models	Dec 19, 2023	1 Image, 2*2 StitchingArithmetic Reasoning	CodeCode Available	1
Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations	Dec 14, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	1
Prompt Optimization via Adversarial In-Context Learning	Dec 5, 2023	Arithmetic ReasoningData-to-Text Generation	CodeCode Available	1
Generative Parameter-Efficient Fine-Tuning	Dec 1, 2023	Arithmetic ReasoningFine-Grained Image Classification	CodeCode Available	1
Neuro-Symbolic Integration Brings Causal and Reliable Reasoning Proofs	Nov 16, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	1
OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning	Nov 16, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	1
Empirical Study of Zero-Shot NER with ChatGPT	Oct 16, 2023	Arithmetic Reasoningnamed-entity-recognition	CodeCode Available	1
DialCoT Meets PPO: Decomposing and Exploring Reasoning Paths in Smaller Language Models	Oct 8, 2023	Arithmetic Reasoning	CodeCode Available	1
DOMINO: A Dual-System for Multi-step Visual Language Reasoning	Oct 4, 2023	Arithmetic ReasoningLanguage Modeling	CodeCode Available	1
A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration	Oct 3, 2023	Arithmetic ReasoningCode Generation	CodeCode Available	1
Are Human-generated Demonstrations Necessary for In-context Learning?	Sep 26, 2023	Arithmetic ReasoningCode Generation	CodeCode Available	1
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL	Sep 13, 2023	Arithmetic ReasoningNavigate	CodeCode Available	1
Token-Scaled Logit Distillation for Ternary Weight Generative Language Models	Aug 13, 2023	Arithmetic ReasoningCommon Sense Reasoning	CodeCode Available	1
Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs	Jun 22, 2023	Arithmetic ReasoningBenchmarking	CodeCode Available	1
Boosting Language Models Reasoning with Chain-of-Knowledge Prompting	Jun 10, 2023	Arithmetic Reasoning	CodeCode Available	1
A Mechanistic Interpretation of Arithmetic Reasoning in Language Models using Causal Mediation Analysis	May 24, 2023	Arithmetic ReasoningMathematical Reasoning	CodeCode Available	1
Automatic Model Selection with Large Language Models for Reasoning	May 23, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	1
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting	May 16, 2023	Arithmetic ReasoningLanguage Modeling	CodeCode Available	1
Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting	May 11, 2023	AllArithmetic Reasoning	CodeCode Available	1
MoT: Memory-of-Thought Enables ChatGPT to Self-Improve	May 9, 2023	Arithmetic ReasoningNatural Language Inference	CodeCode Available	1
Mastering Symbolic Operations: Augmenting Language Models with Compiled Neural Networks	Apr 4, 2023	Arithmetic ReasoningLanguage Modelling	CodeCode Available	1
MathPrompter: Mathematical Reasoning using Large Language Models	Mar 4, 2023	Arithmetic ReasoningMath	CodeCode Available	1
Automatic Prompt Augmentation and Selection with Chain-of-Thought from Labeled Data	Feb 24, 2023	Arithmetic ReasoningLanguage Modelling	CodeCode Available	1

Show:10 25 50

← PrevPage 3 of 7Next →

All datasets GSM8K MultiArith Game of 24 MathMC MathToF

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude 3.5 Sonnet (HPT)	Accuracy	97.72	—	Unverified
2	DUP prompt upon GPT-4	Accuracy	97.1	—	Unverified
3	Qwen2-Math-72B-Instruct (greedy)	Accuracy	96.7	—	Unverified
4	SFT-Mistral-7B (Metamath, OVM, Smart Ensemble)	Accuracy	96.4	—	Unverified
5	OpenMath2-Llama3.1-70B (majority@256)	Accuracy	96	—	Unverified
6	Jiutian-大模型	Accuracy	95.2	—	Unverified
7	DAMOMath-7B(MetaMath, OVM, BS, Ensemble)	Accuracy	95.1	—	Unverified
8	Claude 3 Opus (0-shot chain-of-thought)	Accuracy	95	—	Unverified
9	OpenMath2-Llama3.1-70B	Accuracy	94.9	—	Unverified
10	GPT-4 (Teaching-Inspired)	Accuracy	94.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Text-davinci-002 (175B)(zero-shot-cot)	Accuracy	78.7	—	Unverified
2	Text-davinci-002 (175B) (zero-shot)	Accuracy	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tree of Thoughts (b=5)	Success	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	92.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	89.2	—	Unverified