Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–475 of 805 papers

Title	Date	Tasks	Status
Beyond Gold Standards: Epistemic Ensemble of LLM Judges for Formal Mathematical Reasoning	Jun 12, 2025	Mathematical Reasoning	—Unverified
Beyond Lines and Circles: Unveiling the Geometric Reasoning Gap in Large Language Models	Feb 6, 2024	Mathematical ReasoningVariable Selection	—Unverified
Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning	May 20, 2025	Mathematical Reasoning	—Unverified
BitNet b1.58 2B4T Technical Report	Apr 16, 2025	Computational EfficiencyCPU	—Unverified
Fewer is More: Boosting LLM Reasoning with Reinforced Context Pruning	Dec 14, 2023	Arithmetic ReasoningFew-Shot Learning	—Unverified
Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation	Aug 28, 2024	Knowledge DistillationLanguage Modelling	—Unverified
Bottlenecked Transformers: Periodic KV Cache Abstraction for Generalised Reasoning	May 22, 2025	Mathematical Reasoning	—Unverified
Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics	Apr 1, 2025	MathMathematical Problem-Solving	—Unverified
Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models	Jun 6, 2024	Arithmetic ReasoningCode Generation	—Unverified
Building Math Agents with Multi-Turn Iterative Preference Learning	Sep 4, 2024	GSM8KMath	—Unverified
Can Language Models Rival Mathematics Students? Evaluating Mathematical Reasoning through Textual Manipulation and Human Experiments	Dec 16, 2024	Mathematical Reasoning	—Unverified
Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations	Oct 17, 2023	Mathematical ReasoningSentiment Analysis	—Unverified
Can Large Language Models Invent Algorithms to Improve Themselves?	Oct 21, 2024	Mathematical Reasoning	—Unverified
Can LLMs understand Math? -- Exploring the Pitfalls in Mathematical Reasoning	May 21, 2025	MathMathematical Reasoning	—Unverified
Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning	May 20, 2025	Large Language ModelMathematical Reasoning	—Unverified
Can Theoretical Physics Research Benefit from Language Agents?	Jun 6, 2025	Code GenerationMathematical Reasoning	—Unverified
Causal Head Gating: A Framework for Interpreting Roles of Attention Heads in Transformers	May 19, 2025	In-Context LearningInstruction Following	—Unverified
Causal Inference with Large Language Model: A Survey	Sep 15, 2024	Causal InferenceLanguage Modeling	—Unverified
CDW-CoT: Clustered Distance-Weighted Chain-of-Thoughts Reasoning	Jan 21, 2025	ClusteringMathematical Reasoning	—Unverified
Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective	Jan 19, 2025	Automated Theorem ProvingMath	—Unverified
CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities	Jan 13, 2024	MathMathematical Reasoning	—Unverified
Channel Merging: Preserving Specialization for Merged Experts	Dec 18, 2024	Code GenerationGPU	—Unverified
CLEAR: Contrasting Textual Feedback with Experts and Amateurs for Reasoning	Mar 24, 2025	Language ModelingLanguage Modelling	—Unverified
Coarse-to-Fine Process Reward Modeling for Enhanced Mathematical Reasoning	Jan 23, 2025	AttributeMathematical Reasoning	—Unverified
CodeGemma: Open Code Models Based on Gemma	Jun 17, 2024	Code CompletionMathematical Reasoning	—Unverified

Show:10 25 50

← PrevPage 19 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	Search-o1	Acc	56.7	—	Unverified
6	s1-32B	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	GPT-4o	Accuracy	0.01	—	Unverified
4	o1-mini	Accuracy	0.01	—	Unverified
5	o1-preview	Accuracy	0.01	—	Unverified
6	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified