Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 805 papers

Title	Date	Tasks	Status
Beyond Gold Standards: Epistemic Ensemble of LLM Judges for Formal Mathematical Reasoning	Jun 12, 2025	Mathematical Reasoning	—Unverified
Beyond Lines and Circles: Unveiling the Geometric Reasoning Gap in Large Language Models	Feb 6, 2024	Mathematical ReasoningVariable Selection	—Unverified
Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning	May 20, 2025	Mathematical Reasoning	—Unverified
BitNet b1.58 2B4T Technical Report	Apr 16, 2025	Computational EfficiencyCPU	—Unverified
Fewer is More: Boosting LLM Reasoning with Reinforced Context Pruning	Dec 14, 2023	Arithmetic ReasoningFew-Shot Learning	—Unverified
Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation	Aug 28, 2024	Knowledge DistillationLanguage Modelling	—Unverified
Bottlenecked Transformers: Periodic KV Cache Abstraction for Generalised Reasoning	May 22, 2025	Mathematical Reasoning	—Unverified
Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics	Apr 1, 2025	MathMathematical Problem-Solving	—Unverified
Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models	Jun 6, 2024	Arithmetic ReasoningCode Generation	—Unverified
Building Math Agents with Multi-Turn Iterative Preference Learning	Sep 4, 2024	GSM8KMath	—Unverified
Can Language Models Rival Mathematics Students? Evaluating Mathematical Reasoning through Textual Manipulation and Human Experiments	Dec 16, 2024	Mathematical Reasoning	—Unverified
Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations	Oct 17, 2023	Mathematical ReasoningSentiment Analysis	—Unverified
Can Large Language Models Invent Algorithms to Improve Themselves?	Oct 21, 2024	Mathematical Reasoning	—Unverified
Can LLMs understand Math? -- Exploring the Pitfalls in Mathematical Reasoning	May 21, 2025	MathMathematical Reasoning	—Unverified
Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning	May 20, 2025	Large Language ModelMathematical Reasoning	—Unverified
Can Theoretical Physics Research Benefit from Language Agents?	Jun 6, 2025	Code GenerationMathematical Reasoning	—Unverified
Causal Head Gating: A Framework for Interpreting Roles of Attention Heads in Transformers	May 19, 2025	In-Context LearningInstruction Following	—Unverified
Causal Inference with Large Language Model: A Survey	Sep 15, 2024	Causal InferenceLanguage Modeling	—Unverified
CDW-CoT: Clustered Distance-Weighted Chain-of-Thoughts Reasoning	Jan 21, 2025	ClusteringMathematical Reasoning	—Unverified
Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective	Jan 19, 2025	Automated Theorem ProvingMath	—Unverified
CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities	Jan 13, 2024	MathMathematical Reasoning	—Unverified
Channel Merging: Preserving Specialization for Merged Experts	Dec 18, 2024	Code GenerationGPU	—Unverified
CLEAR: Contrasting Textual Feedback with Experts and Amateurs for Reasoning	Mar 24, 2025	Language ModelingLanguage Modelling	—Unverified
Coarse-to-Fine Process Reward Modeling for Enhanced Mathematical Reasoning	Jan 23, 2025	AttributeMathematical Reasoning	—Unverified
CodeGemma: Open Code Models Based on Gemma	Jun 17, 2024	Code CompletionMathematical Reasoning	—Unverified
CodePMP: Scalable Preference Model Pretraining for Large Language Model Reasoning	Oct 3, 2024	GSM8KLanguage Modeling	—Unverified
Composing Ensembles of Pre-trained Models via Iterative Consensus	Oct 20, 2022	Arithmetic ReasoningImage Generation	—Unverified
Concept Distillation from Strong to Weak Models via Hypotheses-to-Theories Prompting	Aug 18, 2024	HumanEvalMathematical Reasoning	—Unverified
Conjectures, Tests and Proofs: An Overview of Theory Exploration	Sep 7, 2021	Automated Theorem ProvingMathematical Reasoning	—Unverified
ControlMath: Controllable Data Generation Promotes Math Generalist Models	Sep 20, 2024	Data AugmentationDiversity	—Unverified
CoRE: Enhancing Metacognition with Label-free Self-evaluation in LRMs	Jul 8, 2025	GSM8KMath	—Unverified
CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks	Sep 13, 2024	ARCCode Generation	—Unverified
DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training	Apr 24, 2025	Mathematical Reasoning	—Unverified
DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data	May 23, 2024	Automated Theorem ProvingMathematical Reasoning	—Unverified
Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training	Apr 22, 2024	MathMathematical Reasoning	—Unverified
Diversity-Aware Policy Optimization for Large Language Model Reasoning	May 29, 2025	DiversityLanguage Modeling	—Unverified
Diversity of Thought Elicits Stronger Reasoning Capabilities in Multi-Agent Debate Frameworks	Oct 10, 2024	8kDiversity	—Unverified
Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology	Oct 19, 2024	Logical ReasoningMath	—Unverified
Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation	May 24, 2025	Mathematical ReasoningMultimodal Reasoning	—Unverified
Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models	May 27, 2025	Mathematical Reasoning	—Unverified
DRP: Distilled Reasoning Pruning with Skill-aware Step Decomposition for Efficient Large Reasoning Models	May 20, 2025	GSM8KMathematical Reasoning	—Unverified
Dual Instruction Tuning with Large Language Models for Mathematical Reasoning	Mar 27, 2024	Domain GeneralizationMathematical Reasoning	—Unverified
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models	Oct 29, 2024	MathMathematical Reasoning	—Unverified
Dynamic Sampling that Adapts: Iterative DPO for Self-Aware Mathematical Reasoning	May 22, 2025	Mathematical ReasoningReinforcement Learning (RL)	—Unverified
Efficient Long CoT Reasoning in Small Language Models	May 24, 2025	Mathematical Reasoningvalid	—Unverified
Efficient Model-agnostic Alignment via Bayesian Persuasion	May 29, 2024	Code GenerationMathematical Reasoning	—Unverified
Efficient Tool Use with Chain-of-Abstraction Reasoning	Jan 30, 2024	MathMathematical Reasoning	—Unverified
Eliciting Reasoning in Language Models with Cognitive Tools	Jun 13, 2025	Mathematical ReasoningReinforcement Learning (RL)	—Unverified
Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning	Oct 14, 2024	MathMathematical Reasoning	—Unverified
Enhancing Length Extrapolation in Sequential Models with Pointer-Augmented Neural Memory	Apr 18, 2024	Machine TranslationMathematical Reasoning	—Unverified

Show:10 25 50

← PrevPage 10 of 17Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	Search-o1	Acc	56.7	—	Unverified
6	s1-32B	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	GPT-4o	Accuracy	0.01	—	Unverified
4	o1-mini	Accuracy	0.01	—	Unverified
5	o1-preview	Accuracy	0.01	—	Unverified
6	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified