Arithmetic Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–125 of 175 papers

Title	Date	Tasks	Status
The Lottery LLM Hypothesis, Rethinking What Abilities Should LLM Compression Preserve?	Feb 24, 2025	Arithmetic ReasoningCommon Sense Reasoning	—Unverified
Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights	Feb 18, 2025	Arithmetic ReasoningCommon Sense Reasoning	—Unverified
On Representational Dissociation of Language and Arithmetic in Large Language Models	Feb 17, 2025	Arithmetic Reasoning	—Unverified
Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding	Feb 17, 2025	Arithmetic ReasoningChart Understanding	—Unverified
Can LLMs Maintain Fundamental Abilities under KV Cache Compression?	Feb 4, 2025	Arithmetic ReasoningCode Generation	—Unverified
CLoQ: Enhancing Fine-Tuning of Quantized LLMs via Calibrated LoRA Initialization	Jan 30, 2025	Arithmetic ReasoningText Generation	—Unverified
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training	Jan 28, 2025	Arithmetic ReasoningMemorization	—Unverified
DoTA: Weight-Decomposed Tensor Adaptation for Large Language Models	Dec 30, 2024	Arithmetic ReasoningQuantization	—Unverified
Towards Intrinsic Self-Correction Enhancement in Monte Carlo Tree Search Boosted Reasoning via Iterative Preference Learning	Dec 23, 2024	Arithmetic ReasoningGSM8K	—Unverified
Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs	Dec 19, 2024	Arithmetic ReasoningCode Generation	—Unverified
Hint Marginalization for Improved Reasoning in Large Language Models	Dec 17, 2024	Arithmetic Reasoning	—Unverified
GaLore+: Boosting Low-Rank Adaptation for LLMs with Cross-Head Projection	Dec 15, 2024	Arithmetic ReasoningText Generation	—Unverified
S^2FT: Efficient, Scalable and Generalizable LLM Fine-tuning by Structured Sparsity	Dec 9, 2024	Arithmetic Reasoning	—Unverified
Think-to-Talk or Talk-to-Think? When LLMs Come Up with an Answer in Multi-Step Arithmetic Reasoning	Dec 2, 2024	Arithmetic Reasoning	—Unverified
PERFT: Parameter-Efficient Routed Fine-Tuning for Mixture-of-Expert Model	Nov 12, 2024	Arithmetic ReasoningMixture-of-Experts	—Unverified
Seq-VCR: Preventing Collapse in Intermediate Transformer Representations for Enhanced Reasoning	Nov 4, 2024	Arithmetic ReasoningDecoder	CodeCode Available
Think Beyond Size: Adaptive Prompting for More Effective Reasoning	Oct 10, 2024	Arithmetic ReasoningComputational Efficiency	—Unverified
Teaching-Inspired Integrated Prompting Framework: A Novel Approach for Enhancing Reasoning in Large Language Models	Oct 10, 2024	Arithmetic ReasoningMath	CodeCode Available
Unlocking Structured Thinking in Language Models with Cognitive Prompting	Oct 3, 2024	Arithmetic ReasoningGSM8K	—Unverified
Small Language Models are Equation Reasoners	Sep 19, 2024	Arithmetic ReasoningKnowledge Distillation	—Unverified
3-in-1: 2D Rotary Adaptation for Efficient Finetuning, Efficient Batching and Composability	Aug 28, 2024	Arithmetic ReasoningGPU	CodeCode Available
Relating the Seemingly Unrelated: Principled Understanding of Generalization for Generative Models in Arithmetic Reasoning Tasks	Jul 25, 2024	Arithmetic Reasoning	—Unverified
Leveraging LLM Reasoning Enhances Personalized Recommender Systems	Jul 22, 2024	Arithmetic ReasoningRecommendation Systems	—Unverified
Fine-Tuning and Prompt Optimization: Two Great Steps that Work Better Together	Jul 15, 2024	Arithmetic ReasoningLanguage Modeling	—Unverified
Self-training Language Models for Arithmetic Reasoning	Jul 11, 2024	Arithmetic Reasoning	CodeCode Available

Show:10 25 50

← PrevPage 5 of 7Next →

All datasets GSM8K MultiArith Game of 24 MathMC MathToF

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Claude 3.5 Sonnet (HPT)	Accuracy	97.72	—	Unverified
2	DUP prompt upon GPT-4	Accuracy	97.1	—	Unverified
3	Qwen2-Math-72B-Instruct (greedy)	Accuracy	96.7	—	Unverified
4	SFT-Mistral-7B (Metamath, OVM, Smart Ensemble)	Accuracy	96.4	—	Unverified
5	OpenMath2-Llama3.1-70B (majority@256)	Accuracy	96	—	Unverified
6	Jiutian-大模型	Accuracy	95.2	—	Unverified
7	DAMOMath-7B(MetaMath, OVM, BS, Ensemble)	Accuracy	95.1	—	Unverified
8	Claude 3 Opus (0-shot chain-of-thought)	Accuracy	95	—	Unverified
9	OpenMath2-Llama3.1-70B	Accuracy	94.9	—	Unverified
10	GPT-4 (Teaching-Inspired)	Accuracy	94.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Text-davinci-002 (175B)(zero-shot-cot)	Accuracy	78.7	—	Unverified
2	Text-davinci-002 (175B) (zero-shot)	Accuracy	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tree of Thoughts (b=5)	Success	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	92.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4 (Teaching-Inspired)	Accuracy	89.2	—	Unverified