Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 326–350 of 805 papers

Title	Date	Tasks	Status
Evaluating Large Vision-and-Language Models on Children's Mathematical Olympiads	Jun 22, 2024	Mathematical Reasoning	—Unverified
Can Language Models Rival Mathematics Students? Evaluating Mathematical Reasoning through Textual Manipulation and Human Experiments	Dec 16, 2024	Mathematical Reasoning	—Unverified
LLMs can Find Mathematical Reasoning Mistakes by Pedagogical Chain-of-Thought	May 9, 2024	HallucinationMath	—Unverified
LLMs can implicitly learn from mistakes in-context	Feb 12, 2025	Mathematical Reasoning	—Unverified
Evaluating Grounded Reasoning by Code-Assisted Large Language Models for Mathematics	Apr 24, 2025	Code GenerationMath	—Unverified
A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting	Jul 16, 2024	Mathematical ReasoningQuestion Answering	—Unverified
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection	Oct 6, 2024	BenchmarkingMathematical Reasoning	—Unverified
Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework	Jan 26, 2025	MathMathematical Reasoning	—Unverified
Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering	Feb 17, 2024	Arithmetic ReasoningMathematical Reasoning	—Unverified
LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement	Jun 29, 2024	Contrastive LearningMathematical Reasoning	—Unverified
Assessing GPT4-V on Structured Reasoning Tasks	Dec 13, 2023	Code GenerationLanguage Modeling	—Unverified
Building Math Agents with Multi-Turn Iterative Preference Learning	Sep 4, 2024	GSM8KMath	—Unverified
LLM Library Learning Fails: A LEGO-Prover Case Study	Apr 3, 2025	Mathematical ReasoningMisconceptions	—Unverified
Entropy-Aware Branching for Improved Mathematical Reasoning	Mar 27, 2025	Mathematical Reasoning	—Unverified
LLM Reasoning Engine: Specialized Training for Enhanced Mathematical Reasoning	Dec 28, 2024	Mathematical Reasoning	—Unverified
LLMs can be easily Confused by Instructional Distractions	Feb 5, 2025	Bias DetectionCode Generation	—Unverified
DavIR: Data Selection via Implicit Reward for Large Language Models	Oct 16, 2023	Causal Language ModelingGSM8K	—Unverified
Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning	Dec 20, 2024	Language ModelingLanguage Modelling	—Unverified
Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles	May 26, 2025	ARCLogical Reasoning	—Unverified
Enhancing Reasoning through Process Supervision with Monte Carlo Tree Search	Jan 2, 2025	Mathematical Reasoning	—Unverified
Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models	Jun 6, 2024	Arithmetic ReasoningCode Generation	—Unverified
Enhancing Neural Mathematical Reasoning by Abductive Combination with Symbolic Library	Mar 28, 2022	Logical ReasoningMathematical Reasoning	—Unverified
Enhancing Mathematical Reasoning in LLMs with Background Operators	Dec 5, 2024	Data AugmentationMath	—Unverified
Are Large Language Models Robust in Understanding Code Against Semantics-Preserving Mutations?	May 15, 2025	Mathematical Reasoning	—Unverified
Enhancing Mathematical Reasoning in LLMs by Stepwise Correction	Oct 16, 2024	Mathematical Reasoning	—Unverified

Show:10 25 50

← PrevPage 14 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	s1-32B	Acc	56.7	—	Unverified
6	Search-o1	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	o1-preview	Accuracy	0.01	—	Unverified
4	GPT-4o	Accuracy	0.01	—	Unverified
5	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified
6	o1-mini	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified