Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–550 of 805 papers

Title	Date	Tasks	Status
Leveraging Constrained Monte Carlo Tree Search to Generate Reliable Long Chain-of-Thought for Mathematical Reasoning	Feb 16, 2025	Mathematical Reasoning	—Unverified
LexPam: Legal Procedure Awareness-Guided Mathematical Reasoning	Apr 3, 2025	Mathematical ReasoningQuestion Answering	—Unverified
LiteSearch: Efficacious Tree Search for LLM	Jun 29, 2024	GSM8KMathematical Reasoning	—Unverified
LLaMa-SciQ: An Educational Chatbot for Answering Science MCQ	Sep 25, 2024	ChatbotGSM8K	—Unverified
LLM4DV: Using Large Language Models for Hardware Test Stimuli Generation	Oct 6, 2023	BenchmarkingMathematical Reasoning	—Unverified
LLM for Complex Reasoning Task: An Exploratory Study in Fermi Problems	Apr 3, 2025	Mathematical Reasoning	—Unverified
LLM Library Learning Fails: A LEGO-Prover Case Study	Apr 3, 2025	Mathematical ReasoningMisconceptions	—Unverified
LLM Reasoning Engine: Specialized Training for Enhanced Mathematical Reasoning	Dec 28, 2024	Mathematical Reasoning	—Unverified
LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement	Jun 29, 2024	Contrastive LearningMathematical Reasoning	—Unverified
LLMs can be easily Confused by Instructional Distractions	Feb 5, 2025	Bias DetectionCode Generation	—Unverified
LLMs can Find Mathematical Reasoning Mistakes by Pedagogical Chain-of-Thought	May 9, 2024	HallucinationMath	—Unverified
LLMs can implicitly learn from mistakes in-context	Feb 12, 2025	Mathematical Reasoning	—Unverified
DavIR: Data Selection via Implicit Reward for Large Language Models	Oct 16, 2023	Causal Language ModelingGSM8K	—Unverified
Logic Contrastive Reasoning with Lightweight Large Language Model for Math Word Problems	Aug 29, 2024	GSM8KLanguage Modeling	—Unverified
Look Before You Leap: Problem Elaboration Prompting Improves Mathematical Reasoning in Large Language Models	Feb 24, 2024	GSM8KMathematical Reasoning	—Unverified
Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts	Jun 24, 2024	Mathematical ReasoningVisual Question Answering (VQA)	—Unverified
Low-Rank Adaptation with Task-Relevant Feature Enhancement for Fine-tuning Language Models	Dec 13, 2024	Mathematical Reasoning	—Unverified
LPML: LLM-Prompting Markup Language for Mathematical Reasoning	Sep 21, 2023	Mathematical Reasoning	—Unverified
Lynx: Enabling Efficient MoE Inference through Dynamic Batch-Aware Expert Selection	Nov 13, 2024	Code GenerationMathematical Reasoning	—Unverified
Machine learning and information theory concepts towards an AI Mathematician	Mar 7, 2024	Mathematical Reasoning	—Unverified
MAPS: A Multilingual Benchmark for Global Agent Performance and Security	May 21, 2025	Code GenerationMath	—Unverified
Markov Chain of Thought for Efficient Mathematical Reasoning	Oct 23, 2024	Mathematical Reasoning	—Unverified
Mars-PO: Multi-Agent Reasoning System Preference Optimization	Nov 28, 2024	MathMathematical Reasoning	—Unverified
Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality	Jun 17, 2025	Code GenerationMathematical Reasoning	—Unverified
MATATA: Weakly Supervised End-to-End MAthematical Tool-Augmented Reasoning for Tabular Applications	Nov 28, 2024	document understandingMathematical Reasoning	—Unverified
MathDivide: Improved mathematical reasoning by large language models	May 12, 2024	GSM8KLogical Reasoning	—Unverified
Assessment of Evolving Large Language Models in Upper Secondary Mathematics	Apr 15, 2025	Mathematical Reasoning	—Unverified
Mathematical Reasoning in Latent Space	Sep 26, 2019	Mathematical Reasoning	—Unverified
MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task	Feb 17, 2025	Code CompletionGSM8K	—Unverified
MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs	Feb 26, 2024	GSM8KMath	—Unverified
MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams	Mar 26, 2025	Mathematical ReasoningObject Counting	—Unverified
MathGLM-Vision: Solving Mathematical Problems with Multi-Modal Large Language Model	Sep 10, 2024	DiversityLanguage Modeling	—Unverified
MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs	Oct 7, 2024	Information RetrievalMathematical Reasoning	—Unverified
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations	Feb 10, 2025	BenchmarkingIn-Context Learning	—Unverified
math-PVS: A Large Language Model Framework to Map Scientific Publications to PVS Theories	Oct 25, 2023	Automated Theorem ProvingLanguage Modeling	—Unverified
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?	Mar 21, 2024	MathMathematical Reasoning	—Unverified
MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models	May 22, 2025	Mathematical Reasoning	—Unverified
MergeME: Model Merging Techniques for Homogeneous and Heterogeneous MoEs	Feb 3, 2025	Mathematical ReasoningMixture-of-Experts	—Unverified
ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Models	Jun 13, 2024	Code Generationdomain classification	—Unverified
INC-Math: Integrating Natural Language and Code for Enhanced Mathematical Reasoning in Large Language Models	Sep 28, 2024	MathMathematical Reasoning	—Unverified
Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models	Feb 27, 2025	Mathematical ReasoningMulti-Armed Bandits	—Unverified
MetaRuleGPT: Recursive Numerical Reasoning of Language Models Trained with Simple Rules	Dec 18, 2024	Mathematical ReasoningMeta-Learning	—Unverified
MIND: Math Informed syNthetic Dialogues for Pretraining LLMs	Oct 15, 2024	GSM8KMath	—Unverified
Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning	May 20, 2025	Logical ReasoningMathematical Reasoning	—Unverified
MinT: Boosting Generalization in Mathematical Reasoning via Multi-View Fine-Tuning	Jul 16, 2023	Knowledge DistillationMathematical Reasoning	—Unverified
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning	Mar 17, 2025	Mathematical ReasoningMultimodal Reasoning	—Unverified
MMTM: Multi-Tasking Multi-Decoder Transformer for Math Word Problems	Jun 2, 2022	DecoderMath	—Unverified
Modeling Intelligent Decision Making Command And Control Agents: An Application to Air Defense	Mar 20, 2019	Decision MakingMathematical Reasoning	—Unverified
Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing	Feb 27, 2025	Document SummarizationLarge Language Model	—Unverified
Multi-Layer GRPO: Enhancing Reasoning and Self-Correction in Large Language Models	Jun 5, 2025	Mathematical Reasoning	—Unverified

Show:10 25 50

← PrevPage 11 of 17Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	Search-o1	Acc	56.7	—	Unverified
6	s1-32B	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	GPT-4o	Accuracy	0.01	—	Unverified
4	o1-mini	Accuracy	0.01	—	Unverified
5	o1-preview	Accuracy	0.01	—	Unverified
6	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified