Arithmetic Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 175 papers

Title	Date	Tasks	Status	Hype
Bridging the Gap between Different Vocabularies for LLM Ensemble	Apr 15, 2024	Arithmetic ReasoningData-to-Text Generation	CodeCode Available	1
Distillation Contrastive Decoding: Improving LLMs Reasoning with Contrastive Decoding and Distillation	Feb 21, 2024	Arithmetic ReasoningGSM8K	CodeCode Available	1
An Investigation of Neuron Activation as a Unified Lens to Explain Chain-of-Thought Eliciting Arithmetic Reasoning of LLMs	Jun 18, 2024	Arithmetic Reasoning	CodeCode Available	1
Gemini: A Family of Highly Capable Multimodal Models	Dec 19, 2023	1 Image, 2*2 StitchingArithmetic Reasoning	CodeCode Available	1
Generative Parameter-Efficient Fine-Tuning	Dec 1, 2023	Arithmetic ReasoningFine-Grained Image Classification	CodeCode Available	1
Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs	Jun 22, 2023	Arithmetic ReasoningBenchmarking	CodeCode Available	1
DialCoT Meets PPO: Decomposing and Exploring Reasoning Paths in Smaller Language Models	Oct 8, 2023	Arithmetic Reasoning	CodeCode Available	1
HALO: Hierarchical Autonomous Logic-Oriented Orchestration for Multi-Agent LLM Systems	May 17, 2025	Arithmetic ReasoningCode Generation	CodeCode Available	1
Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models Aligned with Human Cognitive Principles	Jun 18, 2024	Arithmetic ReasoningCode Generation	CodeCode Available	1
Are Human-generated Demonstrations Necessary for In-context Learning?	Sep 26, 2023	Arithmetic ReasoningCode Generation	CodeCode Available	1
IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning	Oct 25, 2021	Arithmetic ReasoningMathematical Question Answering	CodeCode Available	1
Token-Scaled Logit Distillation for Ternary Weight Generative Language Models	Aug 13, 2023	Arithmetic ReasoningCommon Sense Reasoning	CodeCode Available	1
MoT: Memory-of-Thought Enables ChatGPT to Self-Improve	May 9, 2023	Arithmetic ReasoningNatural Language Inference	CodeCode Available	1
Inter-GPS: Interpretable Geometry Problem Solving with Formal Language and Symbolic Reasoning	May 10, 2021	Arithmetic ReasoningGeometry Problem Solving	CodeCode Available	1
Turning Dust into Gold: Distilling Complex Reasoning Capabilities from LLMs by Leveraging Negative Data	Dec 20, 2023	Arithmetic Reasoning	CodeCode Available	1
Is the Reversal Curse a Binding Problem? Uncovering Limitations of Transformers from a Basic Generalization Failure	Apr 2, 2025	Arithmetic ReasoningData Augmentation	CodeCode Available	1
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL	Sep 13, 2023	Arithmetic ReasoningNavigate	CodeCode Available	1
UL2: Unifying Language Learning Paradigms	May 10, 2022	Arithmetic ReasoningCommon Sense Reasoning	CodeCode Available	1
Language Imbalance Driven Rewarding for Multilingual Self-improving	Oct 11, 2024	Arithmetic ReasoningInstruction Following	CodeCode Available	1
Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting	May 11, 2023	AllArithmetic Reasoning	CodeCode Available	1
Large Language Models are Better Reasoners with Self-Verification	Dec 19, 2022	Arithmetic ReasoningCommon Sense Reasoning	CodeCode Available	1
Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations	Dec 14, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	1
Large Language Models Can Be Easily Distracted by Irrelevant Context	Jan 31, 2023	Arithmetic ReasoningLanguage Modeling	CodeCode Available	1
Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics	Oct 28, 2024	Arithmetic ReasoningMath	CodeCode Available	1
OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning	Nov 16, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	1
Solving Math Word Problems via Cooperative Reasoning induced Language Models	Oct 28, 2022	Arithmetic ReasoningMath	CodeCode Available	1
A Mechanistic Interpretation of Arithmetic Reasoning in Language Models using Causal Mediation Analysis	May 24, 2023	Arithmetic ReasoningMathematical Reasoning	CodeCode Available	1
DOMINO: A Dual-System for Multi-step Visual Language Reasoning	Oct 4, 2023	Arithmetic ReasoningLanguage Modeling	CodeCode Available	1
Neuro-Symbolic Integration Brings Causal and Reliable Reasoning Proofs	Nov 16, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	1
Automatic Prompt Augmentation and Selection with Chain-of-Thought from Labeled Data	Feb 24, 2023	Arithmetic ReasoningLanguage Modelling	CodeCode Available	1
Learning Math Reasoning from Self-Sampled Correct and Partially-Correct Solutions	May 28, 2022	Arithmetic ReasoningEfficient Exploration	CodeCode Available	1
Prompt Optimization via Adversarial In-Context Learning	Dec 5, 2023	Arithmetic ReasoningData-to-Text Generation	CodeCode Available	1
Toward Adaptive Reasoning in Large Language Models with Thought Rollback	Jul 21, 2024	Arithmetic ReasoningMath	CodeCode Available	1
Self-Consistency Improves Chain of Thought Reasoning in Language Models	Mar 21, 2022	ARCArithmetic Reasoning	CodeCode Available	1
QuanTA: Efficient High-Rank Fine-Tuning of LLMs with Quantum-Informed Tensor Adaptation	May 31, 2024	Arithmetic Reasoning	CodeCode Available	1
Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions	Jan 17, 2024	Arithmetic ReasoningCode Generation	CodeCode Available	1
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing	Apr 18, 2024	Arithmetic ReasoningGSM8K	CodeCode Available	1
Your Language Model May Think Too Rigidly: Achieving Reasoning Consistency with Symmetry-Enhanced Training	Feb 25, 2025	Arithmetic ReasoningData Augmentation	—Unverified	0
Leveraging LLM Reasoning Enhances Personalized Recommender Systems	Jul 22, 2024	Arithmetic ReasoningRecommendation Systems	—Unverified	0
Arithmetic Reasoning with LLM: Prolog Generation & Permutation	May 28, 2024	Arithmetic ReasoningData Augmentation	—Unverified	0
Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering	Feb 17, 2024	Arithmetic ReasoningMathematical Reasoning	—Unverified	0
Fewer is More: Boosting LLM Reasoning with Reinforced Context Pruning	Dec 14, 2023	Arithmetic ReasoningFew-Shot Learning	—Unverified	0
Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM	Mar 12, 2024	Arithmetic ReasoningCode Generation	—Unverified	0
Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models	Jun 6, 2024	Arithmetic ReasoningCode Generation	—Unverified	0
Can LLMs Maintain Fundamental Abilities under KV Cache Compression?	Feb 4, 2025	Arithmetic ReasoningCode Generation	—Unverified	0
CLoQ: Enhancing Fine-Tuning of Quantized LLMs via Calibrated LoRA Initialization	Jan 30, 2025	Arithmetic ReasoningText Generation	—Unverified	0
Code Prompting: a Neural Symbolic Method for Complex Reasoning in Large Language Models	May 29, 2023	Arithmetic Reasoning	—Unverified	0
Composing Ensembles of Pre-trained Models via Iterative Consensus	Oct 20, 2022	Arithmetic ReasoningImage Generation	—Unverified	0
DiversiGATE: A Comprehensive Framework for Reliable Large Language Models	Jun 22, 2023	Arithmetic ReasoningGSM8K	—Unverified	0
DoTA: Weight-Decomposed Tensor Adaptation for Large Language Models	Dec 30, 2024	Arithmetic ReasoningQuantization	—Unverified	0

Show:10 25 50

← PrevPage 2 of 4Next →

All datasets GSM8K MultiArith Game of 24 MathMC MathToF

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude 3.5 Sonnet (HPT)	Accuracy	97.72	—	Unverified
2	DUP prompt upon GPT-4	Accuracy	97.1	—	Unverified
3	Qwen2-Math-72B-Instruct (greedy)	Accuracy	96.7	—	Unverified
4	SFT-Mistral-7B (Metamath, OVM, Smart Ensemble)	Accuracy	96.4	—	Unverified
5	OpenMath2-Llama3.1-70B (majority@256)	Accuracy	96	—	Unverified
6	Jiutian-大模型	Accuracy	95.2	—	Unverified
7	DAMOMath-7B(MetaMath, OVM, BS, Ensemble)	Accuracy	95.1	—	Unverified
8	Claude 3 Opus (0-shot chain-of-thought)	Accuracy	95	—	Unverified
9	OpenMath2-Llama3.1-70B	Accuracy	94.9	—	Unverified
10	GPT-4 (Teaching-Inspired)	Accuracy	94.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Text-davinci-002 (175B)(zero-shot-cot)	Accuracy	78.7	—	Unverified
2	Text-davinci-002 (175B) (zero-shot)	Accuracy	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tree of Thoughts (b=5)	Success	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	92.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	89.2	—	Unverified