Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–675 of 805 papers

Title	Date	Tasks	Status
Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models	Feb 27, 2025	Mathematical ReasoningMulti-Armed Bandits	—Unverified
MetaRuleGPT: Recursive Numerical Reasoning of Language Models Trained with Simple Rules	Dec 18, 2024	Mathematical ReasoningMeta-Learning	—Unverified
MIND: Math Informed syNthetic Dialogues for Pretraining LLMs	Oct 15, 2024	GSM8KMath	—Unverified
Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning	May 20, 2025	Logical ReasoningMathematical Reasoning	—Unverified
MinT: Boosting Generalization in Mathematical Reasoning via Multi-View Fine-Tuning	Jul 16, 2023	Knowledge DistillationMathematical Reasoning	—Unverified
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning	Mar 17, 2025	Mathematical ReasoningMultimodal Reasoning	—Unverified
MMTM: Multi-Tasking Multi-Decoder Transformer for Math Word Problems	Jun 2, 2022	DecoderMath	—Unverified
Modeling Intelligent Decision Making Command And Control Agents: An Application to Air Defense	Mar 20, 2019	Decision MakingMathematical Reasoning	—Unverified
Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing	Feb 27, 2025	Document SummarizationLarge Language Model	—Unverified
Multi-Layer GRPO: Enhancing Reasoning and Self-Correction in Large Language Models	Jun 5, 2025	Mathematical Reasoning	—Unverified
Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models	Mar 1, 2024	BenchmarkingMathematical Reasoning	—Unverified
Multi-tool Integration Application for Math Reasoning Using Large Language Model	Aug 22, 2024	Language ModelingLanguage Modelling	—Unverified
MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts	Feb 28, 2025	MathMathematical Reasoning	—Unverified
MWPRanker: An Expression Similarity Based Math Word Problem Retriever	Jul 3, 2023	Logical SequenceMath	—Unverified
Neuro-Symbolic Data Generation for Math Reasoning	Dec 6, 2024	DiversityMath	—Unverified
Noisy Deductive Reasoning: How Humans Construct Math, and How Math Constructs Universes	Oct 28, 2020	MathMathematical Reasoning	—Unverified
None of the Above, Less of the Right: Parallel Patterns between Humans and LLMs on Multi-Choice Questions Answering	Mar 3, 2025	Business EthicsEthics	—Unverified
Notes on a Path to AI Assistance in Mathematical Reasoning	Oct 4, 2023	Mathematical Reasoning	—Unverified
No Train Still Gain. Unleash Mathematical Reasoning of Large Language Models with Monte Carlo Tree Search Guided by Energy Function	Sep 1, 2023	GSM8KMathematical Reasoning	—Unverified
Novice Learner and Expert Tutor: Evaluating Math Reasoning Abilities of Large Language Models with Misconceptions	Oct 3, 2023	MathMathematical Reasoning	—Unverified
NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks	Apr 12, 2022	Arithmetic ReasoningMathematical Reasoning	—Unverified
Olapa-MCoT: Enhancing the Chinese Mathematical Reasoning Capability of LLMs	Dec 29, 2023	Mathematical Reasoning	—Unverified
One Example Shown, Many Concepts Known! Counterexample-Driven Conceptual Reasoning in Mathematical LLMs	Feb 12, 2025	Mathematical Reasoning	—Unverified
On-Policy RL with Optimal Reward Baseline	May 29, 2025	Large Language ModelMathematical Reasoning	—Unverified
On the meaning of uncertainty for ethical AI: philosophy and practice	Sep 11, 2023	Decision MakingMathematical Reasoning	—Unverified

Show:10 25 50

← PrevPage 27 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	Search-o1	Acc	56.7	—	Unverified
6	s1-32B	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	GPT-4o	Accuracy	0.01	—	Unverified
4	o1-mini	Accuracy	0.01	—	Unverified
5	o1-preview	Accuracy	0.01	—	Unverified
6	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified