Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 805 papers

Title	Date	Tasks	Status
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision	Nov 25, 2024	Mathematical Reasoning	—Unverified
LLMs can implicitly learn from mistakes in-context	Feb 12, 2025	Mathematical Reasoning	—Unverified
LLMs can Find Mathematical Reasoning Mistakes by Pedagogical Chain-of-Thought	May 9, 2024	HallucinationMath	—Unverified
LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement	Jun 29, 2024	Contrastive LearningMathematical Reasoning	—Unverified
Enhancing Length Extrapolation in Sequential Models with Pointer-Augmented Neural Memory	Apr 18, 2024	Machine TranslationMathematical Reasoning	—Unverified
Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics	Apr 1, 2025	MathMathematical Problem-Solving	—Unverified
math-PVS: A Large Language Model Framework to Map Scientific Publications to PVS Theories	Oct 25, 2023	Automated Theorem ProvingLanguage Modeling	—Unverified
Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning	Oct 14, 2024	MathMathematical Reasoning	—Unverified
Eliciting Reasoning in Language Models with Cognitive Tools	Jun 13, 2025	Mathematical ReasoningReinforcement Learning (RL)	—Unverified
Bottlenecked Transformers: Periodic KV Cache Abstraction for Generalised Reasoning	May 22, 2025	Mathematical Reasoning	—Unverified
LLaMa-SciQ: An Educational Chatbot for Answering Science MCQ	Sep 25, 2024	ChatbotGSM8K	—Unverified
LiteSearch: Efficacious Tree Search for LLM	Jun 29, 2024	GSM8KMathematical Reasoning	—Unverified
Efficient Tool Use with Chain-of-Abstraction Reasoning	Jan 30, 2024	MathMathematical Reasoning	—Unverified
Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets	Apr 28, 2025	Data AugmentationDiversity	—Unverified
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?	Mar 21, 2024	MathMathematical Reasoning	—Unverified
MergeME: Model Merging Techniques for Homogeneous and Heterogeneous MoEs	Feb 3, 2025	Mathematical ReasoningMixture-of-Experts	—Unverified
Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation	Aug 28, 2024	Knowledge DistillationLanguage Modelling	—Unverified
MathGLM-Vision: Solving Mathematical Problems with Multi-Modal Large Language Model	Sep 10, 2024	DiversityLanguage Modeling	—Unverified
Efficient Long CoT Reasoning in Small Language Models	May 24, 2025	Mathematical Reasoningvalid	—Unverified
LexPam: Legal Procedure Awareness-Guided Mathematical Reasoning	Apr 3, 2025	Mathematical ReasoningQuestion Answering	—Unverified
Leveraging Constrained Monte Carlo Tree Search to Generate Reliable Long Chain-of-Thought for Mathematical Reasoning	Feb 16, 2025	Mathematical Reasoning	—Unverified
MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams	Mar 26, 2025	Mathematical ReasoningObject Counting	—Unverified
MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs	Oct 7, 2024	Information RetrievalMathematical Reasoning	—Unverified
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning	Oct 16, 2023	Code GenerationGSM8K	—Unverified
Fewer is More: Boosting LLM Reasoning with Reinforced Context Pruning	Dec 14, 2023	Arithmetic ReasoningFew-Shot Learning	—Unverified
Let's Reinforce Step by Step	Nov 10, 2023	GSM8KLogical Reasoning	—Unverified
Let's Reason Formally: Natural-Formal Hybrid Reasoning Enhances LLM's Math Capability	May 29, 2025	MathMathematical Reasoning	—Unverified
Agent-as-a-Service based on Agent Network	May 13, 2025	Code GenerationMathematical Reasoning	—Unverified
LemmaHead: RAG Assisted Proof Generation Using Large Language Models	Jan 27, 2025	Automated Theorem ProvingMathematical Proofs	—Unverified
Dynamic Sampling that Adapts: Iterative DPO for Self-Aware Mathematical Reasoning	May 22, 2025	Mathematical ReasoningReinforcement Learning (RL)	—Unverified
Apriori Knowledge in an Era of Computational Opacity: The Role of AI in Mathematical Discovery	Mar 15, 2024	Mathematical Reasoning	—Unverified
Efficient Model-agnostic Alignment via Bayesian Persuasion	May 29, 2024	Code GenerationMathematical Reasoning	—Unverified
Learning to Reason With Relational Abstractions	Oct 6, 2022	Mathematical Reasoning	—Unverified
Learning to Rank Chain-of-Thought: An Energy-Based Approach with Outcome Supervision	May 21, 2025	GSM8KLearning-To-Rank	—Unverified
MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs	Feb 26, 2024	GSM8KMath	—Unverified
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models	Oct 29, 2024	MathMathematical Reasoning	—Unverified
BitNet b1.58 2B4T Technical Report	Apr 16, 2025	Computational EfficiencyCPU	—Unverified
LLM4DV: Using Large Language Models for Hardware Test Stimuli Generation	Oct 6, 2023	BenchmarkingMathematical Reasoning	—Unverified
LLM for Complex Reasoning Task: An Exploratory Study in Fermi Problems	Apr 3, 2025	Mathematical Reasoning	—Unverified
LLM Library Learning Fails: A LEGO-Prover Case Study	Apr 3, 2025	Mathematical ReasoningMisconceptions	—Unverified
Learning to chain-of-thought with Jensen's evidence lower bound	Mar 25, 2025	Mathematical Reasoningreinforcement-learning	—Unverified
LLM Reasoning Engine: Specialized Training for Enhanced Mathematical Reasoning	Dec 28, 2024	Mathematical Reasoning	—Unverified
Dual Instruction Tuning with Large Language Models for Mathematical Reasoning	Mar 27, 2024	Domain GeneralizationMathematical Reasoning	—Unverified
LLMs can be easily Confused by Instructional Distractions	Feb 5, 2025	Bias DetectionCode Generation	—Unverified
Applying RLAIF for Code Generation with API-usage in Lightweight LLMs	Jun 28, 2024	Code GenerationHallucination	—Unverified
Learning Like Humans: Advancing LLM Reasoning Capabilities via Adaptive Difficulty Curriculum Learning and Expert-Guided Self-Reformulation	May 13, 2025	Imitation LearningMathematical Reasoning	—Unverified
Learning by Applying: A General Framework for Mathematical Reasoning via Enhancing Explicit Knowledge Learning	Feb 11, 2023	DecoderMathematical Reasoning	—Unverified
DavIR: Data Selection via Implicit Reward for Large Language Models	Oct 16, 2023	Causal Language ModelingGSM8K	—Unverified
DRP: Distilled Reasoning Pruning with Skill-aware Step Decomposition for Efficient Large Reasoning Models	May 20, 2025	GSM8KMathematical Reasoning	—Unverified
Mathematical Reasoning in Latent Space	Sep 26, 2019	Mathematical Reasoning	—Unverified

Show:10 25 50

← PrevPage 8 of 17Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	s1-32B	Acc	56.7	—	Unverified
6	Search-o1	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	o1-preview	Accuracy	0.01	—	Unverified
4	GPT-4o	Accuracy	0.01	—	Unverified
5	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified
6	o1-mini	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified