Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 526–550 of 805 papers

Title	Date	Tasks	Status
Channel Merging: Preserving Specialization for Merged Experts	Dec 18, 2024	Code GenerationGPU	—Unverified
MultiLingPoT: Enhancing Mathematical Reasoning with Multilingual Program Fine-tuning	Dec 17, 2024	Mathematical Reasoning	CodeCode Available
CoinMath: Harnessing the Power of Coding Instruction for Math LLMs	Dec 16, 2024	DescriptiveMath	CodeCode Available
Can Language Models Rival Mathematics Students? Evaluating Mathematical Reasoning through Textual Manipulation and Human Experiments	Dec 16, 2024	Mathematical Reasoning	—Unverified
A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges	Dec 16, 2024	Language ModelingLanguage Modelling	—Unverified
Low-Rank Adaptation with Task-Relevant Feature Enhancement for Fine-tuning Language Models	Dec 13, 2024	Mathematical Reasoning	—Unverified
A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions	Dec 12, 2024	GSM8KKnowledge Graphs	—Unverified
Sail into the Headwind: Alignment via Robust Rewards and Dynamic Labels against Reward Hacking	Dec 12, 2024	Mathematical Reasoning	—Unverified
SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs	Dec 11, 2024	ARCGSM8K	—Unverified
Optimizing Alignment with Less: Leveraging Data Augmentation for Personalized Evaluation	Dec 10, 2024	Data AugmentationMathematical Reasoning	—Unverified
Applications of Positive Unlabeled (PU) and Negative Unlabeled (NU) Learning in Cybersecurity	Dec 9, 2024	Intrusion DetectionMalware Detection	—Unverified
Neuro-Symbolic Data Generation for Math Reasoning	Dec 6, 2024	DiversityMath	—Unverified
Evolutionary Pre-Prompt Optimization for Mathematical Reasoning	Dec 5, 2024	Few-Shot LearningGSM8K	—Unverified
Enhancing Mathematical Reasoning in LLMs with Background Operators	Dec 5, 2024	Data AugmentationMath	—Unverified
Training-Free Mitigation of Language Reasoning Degradation After Multimodal Instruction Tuning	Dec 4, 2024	GSM8KLanguage Modeling	—Unverified
Improving Physics Reasoning in Large Language Models Using Mixture of Refinement Agents	Dec 1, 2024	Mathematical ReasoningMMLU	—Unverified
MATATA: Weakly Supervised End-to-End MAthematical Tool-Augmented Reasoning for Tabular Applications	Nov 28, 2024	document understandingMathematical Reasoning	—Unverified
Mars-PO: Multi-Agent Reasoning System Preference Optimization	Nov 28, 2024	MathMathematical Reasoning	—Unverified
Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS	Nov 27, 2024	In-Context LearningMath	CodeCode Available
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision	Nov 25, 2024	Mathematical Reasoning	—Unverified
MC-NEST -- Enhancing Mathematical Reasoning in Large Language Models with a Monte Carlo Nash Equilibrium Self-Refine Tree	Nov 23, 2024	Decision MakingMathematical Reasoning	CodeCode Available
Improving Mathematical Reasoning Capabilities of Small Language Models via Feedback-Driven Distillation	Nov 22, 2024	Knowledge DistillationMathematical Reasoning	—Unverified
Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models	Nov 19, 2024	Mathematical Reasoning	—Unverified
Large Language Models for Combinatorial Optimization of Design Structure Matrix	Nov 19, 2024	Combinatorial OptimizationMathematical Reasoning	—Unverified
PSPO*: An Effective Process-supervised Policy Optimization for Reasoning Alignment	Nov 18, 2024	Mathematical Reasoning	CodeCode Available

Show:10 25 50

← PrevPage 22 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	Search-o1	Acc	56.7	—	Unverified
6	s1-32B	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	GPT-4o	Accuracy	0.01	—	Unverified
4	o1-mini	Accuracy	0.01	—	Unverified
5	o1-preview	Accuracy	0.01	—	Unverified
6	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified