Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 376–400 of 805 papers

Title	Date	Tasks	Status
Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs	May 19, 2025	Mathematical ReasoningReinforcement Learning (RL)	—Unverified
Selective Code Generation for Functional Guarantees	May 19, 2025	Code GenerationHallucination	—Unverified
Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning	May 19, 2025	2kMathematical Reasoning	—Unverified
AutoMathKG: The automated mathematical knowledge graph based on LLM and vector database	May 19, 2025	Data AugmentationIn-Context Learning	—Unverified
Guided Search Strategies in Non-Serializable Environments with Applications to Software Engineering Agents	May 19, 2025	Mathematical Reasoning	—Unverified
MARGE: Improving Math Reasoning for LLMs with Guided Exploration	May 18, 2025	MathMathematical Reasoning	CodeCode Available
SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization	May 18, 2025	MathMathematical Reasoning	—Unverified
HARDMath2: A Benchmark for Applied Mathematics Built by Students as Part of a Graduate Class	May 17, 2025	MathMathematical Problem-Solving	CodeCode Available
Token-Level Uncertainty Estimation for Large Language Model Reasoning	May 16, 2025	Language ModelingLanguage Modelling	—Unverified
Scaling Reasoning can Improve Factuality in Large Language Models	May 16, 2025	Knowledge GraphsLarge Language Model	CodeCode Available
Real-Time Verification of Embodied Reasoning for Generative Skill Acquisition	May 16, 2025	Mathematical Reasoning	—Unverified
Are Large Language Models Robust in Understanding Code Against Semantics-Preserving Mutations?	May 15, 2025	Mathematical Reasoning	—Unverified
ComplexFormer: Disruptively Advancing Transformer Inference Ability via Head-Specific Complex Vector Attention	May 15, 2025	Code GenerationLanguage Modeling	CodeCode Available
Agent-as-a-Service based on Agent Network	May 13, 2025	Code GenerationMathematical Reasoning	—Unverified
Learning Like Humans: Advancing LLM Reasoning Capabilities via Adaptive Difficulty Curriculum Learning and Expert-Guided Self-Reformulation	May 13, 2025	Imitation LearningMathematical Reasoning	—Unverified
Assessing Robustness to Spurious Correlations in Post-Training Language Models	May 9, 2025	Instruction FollowingMathematical Reasoning	—Unverified
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey	May 6, 2025	Mathematical Reasoning	—Unverified
RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library	Apr 29, 2025	Data AugmentationMathematical Reasoning	—Unverified
Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think	Apr 29, 2025	Mathematical Reasoning	CodeCode Available
Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets	Apr 28, 2025	Data AugmentationDiversity	—Unverified
Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning	Apr 28, 2025	Mathematical Reasoning	—Unverified
Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models	Apr 28, 2025	Mathematical ReasoningMeta-Learning	CodeCode Available
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning	Apr 27, 2025	Large Language ModelMathematical Reasoning	—Unverified
Hierarchical Attention Generates Better Proofs	Apr 27, 2025	Automated Theorem ProvingMathematical Proofs	CodeCode Available
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts	Apr 25, 2025	DiversityMathematical Reasoning	—Unverified

Show:10 25 50

← PrevPage 16 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	s1-32B	Acc	56.7	—	Unverified
6	Search-o1	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	o1-preview	Accuracy	0.01	—	Unverified
4	GPT-4o	Accuracy	0.01	—	Unverified
5	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified
6	o1-mini	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified