Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 676–700 of 805 papers

Title	Date	Tasks	Status
OpenEval: Benchmarking Chinese LLMs across Capability, Alignment and Safety	Mar 18, 2024	BenchmarkingMathematical Reasoning	—Unverified
Optimizing Alignment with Less: Leveraging Data Augmentation for Personalized Evaluation	Dec 10, 2024	Data AugmentationMathematical Reasoning	—Unverified
Optimizing Numerical Estimation and Operational Efficiency in the Legal Domain through Large Language Models	Jul 26, 2024	Mathematical Reasoning	—Unverified
Orca 2: Teaching Small Language Models How to Reason	Nov 18, 2023	Arithmetic ReasoningCommon Sense Reasoning	—Unverified
OSoRA: Output-Dimension and Singular-Value Initialized Low-Rank Adaptation	May 20, 2025	Common Sense ReasoningMathematical Reasoning	—Unverified
PARAMANU-GANITA: Language Model with Mathematical Capabilities	Apr 22, 2024	Domain AdaptationGSM8K	—Unverified
Parameter-Efficient Checkpoint Merging via Metrics-Weighted Averaging	Apr 23, 2025	Mathematical Reasoningparameter-efficient fine-tuning	—Unverified
Path-Consistency: Prefix Enhancement for Efficient Inference in LLM	Aug 25, 2024	Code GenerationCommon Sense Reasoning	—Unverified
Path Planning for Masked Diffusion Model Sampling	Feb 5, 2025	Code GenerationIn-Context Learning	—Unverified
Pensez: Less Data, Better Reasoning -- Rethinking French LLM	Mar 17, 2025	Large Language ModelMath	—Unverified
PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models	Jun 21, 2025	Mathematical ReasoningMultiple-choice	—Unverified
Pi-GPS: Enhancing Geometry Problem Solving by Unleashing the Power of Diagrammatic Information	Mar 7, 2025	Geometry Problem SolvingMathematical Reasoning	—Unverified
Plug-and-Play Training Framework for Preference Optimization	Dec 30, 2024	Mathematical ReasoningQuestion Answering	—Unverified
Policy Guided Tree Search for Enhanced LLM Reasoning	Feb 4, 2025	Mathematical ReasoningNavigate	—Unverified
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts	Apr 25, 2025	DiversityMathematical Reasoning	—Unverified
PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness	Oct 9, 2024	Mathematical Reasoning	—Unverified
PPT: A Process-based Preference Learning Framework for Self Improving Table Question Answering Models	May 23, 2025	Code GenerationMathematical Reasoning	—Unverified
Premise-Augmented Reasoning Chains Improve Error Identification in Math reasoning with LLMs	Feb 4, 2025	MathMathematical Reasoning	—Unverified
PREMISE: Scalable and Strategic Prompt Optimization for Efficient Mathematical Reasoning in Large Models	Jun 12, 2025	GSM8KMathematical Reasoning	—Unverified
Pre-trained Large Language Models Use Fourier Features to Compute Addition	Jun 5, 2024	Mathematical Reasoning	—Unverified
Probabilistic Results on the Architecture of Mathematical Reasoning Aligned by Cognitive Alternation	Aug 17, 2023	Mathematical Reasoning	—Unverified
Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models	Nov 19, 2024	Mathematical Reasoning	—Unverified
Process or Result? Manipulated Ending Tokens Can Mislead Reasoning LLMs to Ignore the Correct Reasoning Steps	Mar 25, 2025	Mathematical Reasoning	—Unverified
Progress or Regress? Self-Improvement Reversal in Post-training	Jul 6, 2024	DiversityMathematical Reasoning	—Unverified
Prompt Selection and Augmentation for Few Examples Code Generation in Large Language Model and its Application in Robotics Control	Mar 11, 2024	Code GenerationDiversity	—Unverified

Show:10 25 50

← PrevPage 28 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	s1-32B	Acc	56.7	—	Unverified
6	Search-o1	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	o1-preview	Accuracy	0.01	—	Unverified
4	GPT-4o	Accuracy	0.01	—	Unverified
5	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified
6	o1-mini	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified