Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 426–450 of 805 papers

Title	Date	Tasks	Status
Applying RLAIF for Code Generation with API-usage in Lightweight LLMs	Jun 28, 2024	Code GenerationHallucination	—Unverified
Apriori Knowledge in an Era of Computational Opacity: The Role of AI in Mathematical Discovery	Mar 15, 2024	Mathematical Reasoning	—Unverified
Are Large Language Models Robust in Understanding Code Against Semantics-Preserving Mutations?	May 15, 2025	Mathematical Reasoning	—Unverified
Assessing GPT4-V on Structured Reasoning Tasks	Dec 13, 2023	Code GenerationLanguage Modeling	—Unverified
Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering	Feb 17, 2024	Arithmetic ReasoningMathematical Reasoning	—Unverified
Assessing Robustness to Spurious Correlations in Post-Training Language Models	May 9, 2025	Instruction FollowingMathematical Reasoning	—Unverified
Assessing the Emergent Symbolic Reasoning Abilities of Llama Large Language Models	Jun 5, 2024	Mathematical Reasoning	—Unverified
Assessing the Impact of Prompting Methods on ChatGPT's Mathematical Capabilities	Dec 22, 2023	ChatbotGSM8K	—Unverified
A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges	Dec 16, 2024	Language ModelingLanguage Modelling	—Unverified
A Survey on Large Language Models for Mathematical Reasoning	Jun 10, 2025	Answer GenerationMathematical Reasoning	—Unverified
A Symbolic Framework for Evaluating Mathematical Reasoning and Generalisation with Transformers	May 21, 2023	Mathematical Reasoning	—Unverified
A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks	May 16, 2024	Code GenerationDialogue Generation	—Unverified
A Systematic Survey on Large Language Models for Algorithm Design	Oct 11, 2024	Mathematical Reasoningscientific discovery	—Unverified
A Technical Study into Small Reasoning Language Models	Jun 16, 2025	Code GenerationComputational Efficiency	—Unverified
Augmenting In-Context-Learning in LLMs via Automatic Data Labeling and Refinement	Oct 14, 2024	In-Context LearningMathematical Reasoning	—Unverified
AutoGeo: Automating Geometric Image Dataset Creation for Enhanced Geometry Understanding	Aug 28, 2024	Mathematical Reasoning	—Unverified
AutoGPS: Automated Geometry Problem Solving via Multimodal Formalization and Deductive Reasoning	May 29, 2025	Geometry Problem SolvingMathematical Reasoning	—Unverified
AutoMathKG: The automated mathematical knowledge graph based on LLM and vector database	May 19, 2025	Data AugmentationIn-Context Learning	—Unverified
Forward-Backward Reasoning in Large Language Models for Mathematical Verification	Aug 15, 2023	Mathematical Reasoning	—Unverified
Basis Selection: Low-Rank Decomposition of Pretrained Large Language Models for Target Applications	May 24, 2024	Code GenerationLow-rank compression	—Unverified
Benchmarking Large Language Models via Random Variables	Jan 20, 2025	BenchmarkingMathematical Reasoning	—Unverified
Benchmarking Large Language Models with Integer Sequence Generation Tasks	Nov 7, 2024	BenchmarkingComputational Efficiency	—Unverified
Better Process Supervision with Bi-directional Rewarding Signals	Mar 6, 2025	Language ModelingLanguage Modelling	—Unverified
Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning	Jun 5, 2025	Mathematical ReasoningProblem Decomposition	—Unverified
Beyond Captioning: Task-Specific Prompting for Improved VLM Performance in Mathematical Reasoning	Oct 8, 2024	Image RetrievalMath	—Unverified

Show:10 25 50

← PrevPage 18 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	Search-o1	Acc	56.7	—	Unverified
6	s1-32B	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	GPT-4o	Accuracy	0.01	—	Unverified
4	o1-mini	Accuracy	0.01	—	Unverified
5	o1-preview	Accuracy	0.01	—	Unverified
6	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified