Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 751–800 of 805 papers

Title	Date	Tasks	Status
Notes on a Path to AI Assistance in Mathematical Reasoning	Oct 4, 2023	Mathematical Reasoning	—Unverified
Novice Learner and Expert Tutor: Evaluating Math Reasoning Abilities of Large Language Models with Misconceptions	Oct 3, 2023	MathMathematical Reasoning	—Unverified
LPML: LLM-Prompting Markup Language for Mathematical Reasoning	Sep 21, 2023	Mathematical Reasoning	—Unverified
Code Soliloquies for Accurate Calculations in Large Language Models	Sep 21, 2023	Language ModellingLarge Language Model	CodeCode Available
On the meaning of uncertainty for ethical AI: philosophy and practice	Sep 11, 2023	Decision MakingMathematical Reasoning	—Unverified
No Train Still Gain. Unleash Mathematical Reasoning of Large Language Models with Monte Carlo Tree Search Guided by Energy Function	Sep 1, 2023	GSM8KMathematical Reasoning	—Unverified
Probabilistic Results on the Architecture of Mathematical Reasoning Aligned by Cognitive Alternation	Aug 17, 2023	Mathematical Reasoning	—Unverified
Forward-Backward Reasoning in Large Language Models for Mathematical Verification	Aug 15, 2023	Mathematical Reasoning	—Unverified
Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models	Aug 1, 2023	In-Context LearningMath	—Unverified
MinT: Boosting Generalization in Mathematical Reasoning via Multi-View Fine-Tuning	Jul 16, 2023	Knowledge DistillationMathematical Reasoning	—Unverified
MWPRanker: An Expression Similarity Based Math Word Problem Retriever	Jul 3, 2023	Logical SequenceMath	—Unverified
Math Word Problem Solving by Generating Linguistic Variants of Problem Statements	Jun 24, 2023	DecoderIngenuity	CodeCode Available
JiuZhang 2.0: A Unified Chinese Pre-trained Language Model for Multi-task Mathematical Problem Solving	Jun 19, 2023	In-Context LearningLanguage Modeling	—Unverified
Position: AI Evaluation Should Learn from How We Test Humans	Jun 18, 2023	Mathematical ReasoningPosition	CodeCode Available
Investigating the Effectiveness of ChatGPT in Mathematical Reasoning and Problem Solving: Evidence from the Vietnamese National High School Graduation Examination	Jun 10, 2023	MathMathematical Reasoning	—Unverified
Random Feedback Alignment Algorithms to train Neural Networks: Why do they Align?	Jun 4, 2023	Mathematical Reasoning	—Unverified
A Symbolic Framework for Evaluating Mathematical Reasoning and Generalisation with Transformers	May 21, 2023	Mathematical Reasoning	—Unverified
Federated Prompting and Chain-of-Thought Reasoning for Improving LLMs Answering	Apr 27, 2023	Mathematical Reasoning	—Unverified
Learning by Applying: A General Framework for Mathematical Reasoning via Enhancing Explicit Knowledge Learning	Feb 11, 2023	DecoderMathematical Reasoning	—Unverified
Explanation Selection Using Unlabeled Data for Chain-of-Thought Prompting	Feb 9, 2023	Mathematical ReasoningNatural Language Inference	CodeCode Available
Reliable Natural Language Understanding with Large Language Models and Answer Set Programming	Feb 7, 2023	Mathematical ReasoningNatural Language Understanding	—Unverified
Techniques to Improve Neural Math Word Problem Solvers	Feb 6, 2023	DecoderLanguage Modelling	CodeCode Available
LEMMA: Bootstrapping High-Level Mathematical Reasoning with Learned Symbolic Abstractions	Nov 16, 2022	LEMMAMathematical Reasoning	CodeCode Available
Overcoming Barriers to Skill Injection in Language Modeling: Case Study in Arithmetic	Nov 3, 2022	Arithmetic ReasoningLanguage Modeling	CodeCode Available
Blank Collapse: Compressing CTC emission for the faster decoding	Oct 31, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Composing Ensembles of Pre-trained Models via Iterative Consensus	Oct 20, 2022	Arithmetic ReasoningImage Generation	—Unverified
Learning to Reason With Relational Abstractions	Oct 6, 2022	Mathematical Reasoning	—Unverified
Weakly Supervised Formula Learner for Solving Mathematical Problems	Oct 1, 2022	Mathematical ReasoningQuestion Answering	CodeCode Available
Transformers discover an elementary calculation system exploiting local attention and grid-like problem representation	Jul 6, 2022	Mathematical Reasoning	CodeCode Available
MMTM: Multi-Tasking Multi-Decoder Transformer for Math Word Problems	Jun 2, 2022	DecoderMath	—Unverified
Why are NLP Models Fumbling at Elementary Math? A Survey of Deep Learning based Word Problem Solvers	May 31, 2022	MathMathematical Reasoning	—Unverified
NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks	Apr 12, 2022	Arithmetic ReasoningMathematical Reasoning	—Unverified
Enhancing Neural Mathematical Reasoning by Abductive Combination with Symbolic Library	Mar 28, 2022	Logical ReasoningMathematical Reasoning	—Unverified
Why are NLP Models Fumbling at Elementary Math? A Survey of Automatic Word Problem Solvers	Jan 16, 2022	MathMathematical Reasoning	—Unverified
Theoretical Analysis of an XGBoost Framework for Product Cannibalization	Dec 2, 2021	Mathematical Reasoning	—Unverified
GraphMR: Graph Neural Network for Mathematical Reasoning	Nov 1, 2021	Graph Neural NetworkGraph-to-Sequence	—Unverified
Towards Tractable Mathematical Reasoning: Challenges, Strategies, and Opportunities for Solving Math Word Problems	Oct 29, 2021	Answer GenerationMath	—Unverified
Conjectures, Tests and Proofs: An Overview of Theory Exploration	Sep 7, 2021	Automated Theorem ProvingMathematical Reasoning	—Unverified
Reasoning with Transformer-based Models: Deep Learning, but Shallow Reasoning	Jun 22, 2021	Deep LearningLogical Reasoning	CodeCode Available
Compositional Processing Emerges in Neural Networks Solving Math Problems	May 19, 2021	MathMathematical Reasoning	CodeCode Available
Sustainability of Collusion and Market Transparency in a Sequential Search Market: a Generalization	May 5, 2021	Mathematical Reasoning	—Unverified
The Role of General Intelligence in Mathematical Reasoning	Apr 27, 2021	Mathematical Reasoning	—Unverified
Recognizing and Verifying Mathematical Equations using Multiplicative Differential Neural Units	Apr 7, 2021	Mathematical Reasoning	—Unverified
SMART: A Situation Model for Algebra Story Problems via Attributed Grammar	Dec 27, 2020	MathMathematical Reasoning	—Unverified
Noisy Deductive Reasoning: How Humans Construct Math, and How Math Constructs Universes	Oct 28, 2020	MathMathematical Reasoning	—Unverified
Reverse Operation based Data Augmentation for Solving Math Word Problems	Oct 4, 2020	Data AugmentationMath	CodeCode Available
Adventures in Mathematical Reasoning	Aug 20, 2020	Mathematical Reasoning	—Unverified
Mathematical Reasoning via Self-supervised Skip-tree Training	Jun 8, 2020	Language ModelingLanguage Modelling	—Unverified
Compositional Generalization with Tree Stack Memory Units	Nov 5, 2019	Mathematical ReasoningZero-shot Generalization	CodeCode Available
Mathematical Reasoning in Latent Space	Sep 26, 2019	Mathematical Reasoning	—Unverified

Show:10 25 50

← PrevPage 16 of 17Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	Search-o1	Acc	56.7	—	Unverified
6	s1-32B	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	GPT-4o	Accuracy	0.01	—	Unverified
4	o1-mini	Accuracy	0.01	—	Unverified
5	o1-preview	Accuracy	0.01	—	Unverified
6	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified