Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 276–300 of 805 papers

Title	Date	Tasks	Status
KisMATH: Do LLMs Have Knowledge of Implicit Structures in Mathematical Reasoning?	Jul 15, 2025	GSM8KLanguage Modeling	—Unverified
Integrating External Tools with Large Language Models to Improve Accuracy	Jul 9, 2025	Mathematical ReasoningMMLU	—Unverified
Agentic-R1: Distilled Dual-Strategy Reasoning	Jul 8, 2025	Mathematical Reasoning	CodeCode Available
CoRE: Enhancing Metacognition with Label-free Self-evaluation in LRMs	Jul 8, 2025	GSM8KMath	—Unverified
Large Language Models Don't Make Sense of Word Problems. A Scoping Review from a Mathematics Education Perspective	Jun 30, 2025	Mathematical Reasoning	—Unverified
Layer Importance for Mathematical Reasoning is Forged in Pre-Training and Invariant after Post-Training	Jun 27, 2025	Knowledge DistillationMathematical Reasoning	—Unverified
Test-time Scaling Techniques in Theoretical Physics -- A Comparison of Methods on the TPBench Dataset	Jun 25, 2025	Mathematical Reasoning	—Unverified
Inside you are many wolves: Using cognitive models to interpret value trade-offs in LLMs	Jun 25, 2025	Mathematical Reasoning	—Unverified
AdapThink: Adaptive Thinking Preferences for Reasoning Language Model	Jun 23, 2025	DiversityLanguage Modeling	—Unverified
PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models	Jun 21, 2025	Mathematical ReasoningMultiple-choice	—Unverified
Towards Advanced Mathematical Reasoning for LLMs via First-Order Logic Theorem Proving	Jun 20, 2025	Automated Theorem ProvingDiversity	—Unverified
Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality	Jun 17, 2025	Code GenerationMathematical Reasoning	—Unverified
Revisiting Chain-of-Thought Prompting: Zero-shot Can Be Stronger than Few-shot	Jun 17, 2025	In-Context LearningMathematical Reasoning	—Unverified
Investigating the interaction of linguistic and mathematical reasoning in language models using multilingual number puzzles	Jun 16, 2025	DiversityMathematical Reasoning	—Unverified
A Technical Study into Small Reasoning Language Models	Jun 16, 2025	Code GenerationComputational Efficiency	—Unverified
LearnAlign: Reasoning Data Selection for Reinforcement Learning in Large Language Models Based on Improved Gradient Alignment	Jun 13, 2025	GSM8KMathematical Reasoning	—Unverified
Eliciting Reasoning in Language Models with Cognitive Tools	Jun 13, 2025	Mathematical ReasoningReinforcement Learning (RL)	—Unverified
Investigating the Potential of Large Language Model-Based Router Multi-Agent Architectures for Foundation Design Automation: A Task Classification and Expert Selection Study	Jun 13, 2025	Language ModelingLanguage Modelling	—Unverified
NeuralNexus at BEA 2025 Shared Task: Retrieval-Augmented Prompting for Mistake Identification in AI Tutors	Jun 12, 2025	Language ModelingLanguage Modelling	CodeCode Available
PREMISE: Scalable and Strategic Prompt Optimization for Efficient Mathematical Reasoning in Large Models	Jun 12, 2025	GSM8KMathematical Reasoning	—Unverified
Slimming Down LLMs Without Losing Their Minds	Jun 12, 2025	Computational EfficiencyGSM8K	—Unverified
TeleMath: A Benchmark for Large Language Models in Telecom Mathematical Problem Solving	Jun 12, 2025	Logical ReasoningMathematical Problem-Solving	—Unverified
Beyond Gold Standards: Epistemic Ensemble of LLM Judges for Formal Mathematical Reasoning	Jun 12, 2025	Mathematical Reasoning	—Unverified
Discovering Hierarchical Latent Capabilities of Language Models via Causal Representation Learning	Jun 12, 2025	Instruction FollowingMathematical Reasoning	CodeCode Available
Omni-DPO: A Dual-Perspective Paradigm for Dynamic Preference Learning of LLMs	Jun 11, 2025	Mathematical Reasoning	CodeCode Available

Show:10 25 50

← PrevPage 12 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	s1-32B	Acc	56.7	—	Unverified
6	Search-o1	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	o1-preview	Accuracy	0.01	—	Unverified
4	GPT-4o	Accuracy	0.01	—	Unverified
5	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified
6	o1-mini	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified