Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–325 of 805 papers

Title	Date	Tasks	Status
Towards Efficient and Effective Alignment of Large Language Models	Jun 11, 2025	Mathematical ReasoningMeta-Learning	—Unverified
Large Language Models for Design Structure Matrix Optimization	Jun 11, 2025	Combinatorial OptimizationMathematical Reasoning	—Unverified
Large Language Models Have Intrinsic Meta-Cognition, but Need a Good Lens	Jun 10, 2025	BenchmarkingMathematical Reasoning	—Unverified
A Survey on Large Language Models for Mathematical Reasoning	Jun 10, 2025	Answer GenerationMathematical Reasoning	—Unverified
Can A Gamer Train A Mathematical Reasoning Model?	Jun 10, 2025	GPUMathematical Reasoning	CodeCode Available
VReST: Enhancing Reasoning in Large Vision-Language Models through Tree Search and Self-Reward Mechanism	Jun 10, 2025	Mathematical ReasoningVisual Reasoning	CodeCode Available
Temporalizing Confidence: Evaluation of Chain-of-Thought Reasoning with Signal Temporal Logic	Jun 9, 2025	Mathematical Reasoning	—Unverified
Can Theoretical Physics Research Benefit from Language Agents?	Jun 6, 2025	Code GenerationMathematical Reasoning	—Unverified
LogicPuzzleRL: Cultivating Robust Mathematical Reasoning in LLMs via Reinforcement Learning	Jun 5, 2025	Mathematical Reasoningreinforcement-learning	CodeCode Available
Multi-Layer GRPO: Enhancing Reasoning and Self-Correction in Large Language Models	Jun 5, 2025	Mathematical Reasoning	—Unverified
Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning	Jun 5, 2025	Mathematical ReasoningProblem Decomposition	—Unverified
ProRefine: Inference-time Prompt Refinement with Textual Feedback	Jun 5, 2025	Mathematical Reasoning	—Unverified
Mathematical Reasoning for Unmanned Aerial Vehicles: A RAG-Based Approach for Complex Arithmetic Reasoning	Jun 5, 2025	Arithmetic ReasoningMath	CodeCode Available
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos	Jun 5, 2025	BenchmarkingMathematical Reasoning	—Unverified
Revisiting Test-Time Scaling: A Survey and a Diversity-Aware Method for Efficient Reasoning	Jun 5, 2025	DiversityMathematical Reasoning	—Unverified
Adaptive Graph Pruning for Multi-Agent Communication	Jun 3, 2025	Code GenerationLarge Language Model	CodeCode Available
WebChoreArena: Evaluating Web Browsing Agents on Realistic Tedious Web Tasks	Jun 2, 2025	Large Language ModelMathematical Reasoning	—Unverified
Uni-LoRA: One Vector is All You Need	Jun 1, 2025	AllMathematical Reasoning	—Unverified
GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking	Jun 1, 2025	4kMath	CodeCode Available
Speculative Reward Model Boosts Decision Making Ability of LLMs Cost-Effectively	May 31, 2025	Decision MakingMathematical Reasoning	CodeCode Available
Evaluation of LLMs for mathematical problem solving	May 30, 2025	GSM8KMathematical Problem-Solving	—Unverified
RMoA: Optimizing Mixture-of-Agents through Diversity Maximization and Residual Compensation	May 30, 2025	Code GenerationDiversity	CodeCode Available
On-Policy RL with Optimal Reward Baseline	May 29, 2025	Large Language ModelMathematical Reasoning	—Unverified
Scaling up the think-aloud method	May 29, 2025	Mathematical Reasoning	CodeCode Available
Probability-Consistent Preference Optimization for Enhanced LLM Reasoning	May 29, 2025	Mathematical Reasoning	CodeCode Available

Show:10 25 50

← PrevPage 13 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	Search-o1	Acc	56.7	—	Unverified
6	s1-32B	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	GPT-4o	Accuracy	0.01	—	Unverified
4	o1-mini	Accuracy	0.01	—	Unverified
5	o1-preview	Accuracy	0.01	—	Unverified
6	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified