Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 426–450 of 805 papers

Title	Date	Tasks	Status
Entropy-Aware Branching for Improved Mathematical Reasoning	Mar 27, 2025	Mathematical Reasoning	—Unverified
MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams	Mar 26, 2025	Mathematical ReasoningObject Counting	—Unverified
Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence	Mar 26, 2025	Mathematical Reasoning	CodeCode Available
RL-finetuning LLMs from on- and off-policy data with a single algorithm	Mar 25, 2025	Mathematical Reasoning	—Unverified
Learning to chain-of-thought with Jensen's evidence lower bound	Mar 25, 2025	Mathematical Reasoningreinforcement-learning	—Unverified
Innate Reasoning is Not Enough: In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking	Mar 25, 2025	In-Context LearningMathematical Reasoning	—Unverified
Process or Result? Manipulated Ending Tokens Can Mislead Reasoning LLMs to Ignore the Correct Reasoning Steps	Mar 25, 2025	Mathematical Reasoning	—Unverified
CLEAR: Contrasting Textual Feedback with Experts and Amateurs for Reasoning	Mar 24, 2025	Language ModelingLanguage Modelling	—Unverified
Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?	Mar 23, 2025	GSM8KMath	CodeCode Available
A Survey on Mathematical Reasoning and Optimization with Large Language Models	Mar 22, 2025	Automated Theorem ProvingHeuristic Search	CodeCode Available
Temporal Consistency for LLM Reasoning Process Error Identification	Mar 18, 2025	Mathematical Reasoning	CodeCode Available
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning	Mar 17, 2025	Mathematical ReasoningMultimodal Reasoning	—Unverified
Pensez: Less Data, Better Reasoning -- Rethinking French LLM	Mar 17, 2025	Large Language ModelMath	—Unverified
Reliable and Efficient Amortized Model-based Evaluation	Mar 17, 2025	DiagnosticMathematical Reasoning	—Unverified
Evaluating Mathematical Reasoning Across Large Language Models: A Fine-Grained Approach	Mar 13, 2025	Formal LogicMathematical Reasoning	—Unverified
VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models	Mar 10, 2025	Binary ClassificationHallucination	CodeCode Available
Speculative Decoding for Multi-Sample Inference	Mar 7, 2025	Mathematical Reasoning	—Unverified
Pi-GPS: Enhancing Geometry Problem Solving by Unleashing the Power of Diagrammatic Information	Mar 7, 2025	Geometry Problem SolvingMathematical Reasoning	—Unverified
Better Process Supervision with Bi-directional Rewarding Signals	Mar 6, 2025	Language ModelingLanguage Modelling	—Unverified
Towards Understanding Multi-Round Large Language Model Reasoning: Approximability, Learnability and Generalizability	Mar 5, 2025	Language ModelingLanguage Modelling	—Unverified
Process-based Self-Rewarding Language Models	Mar 5, 2025	Mathematical Reasoning	CodeCode Available
An Efficient and Precise Training Data Construction Framework for Process-supervised Reward Model in Mathematical Reasoning	Mar 4, 2025	Mathematical Reasoning	CodeCode Available
Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models	Mar 4, 2025	GSM8KMath	—Unverified
None of the Above, Less of the Right: Parallel Patterns between Humans and LLMs on Multi-Choice Questions Answering	Mar 3, 2025	Business EthicsEthics	—Unverified
MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts	Feb 28, 2025	MathMathematical Reasoning	—Unverified

Show:10 25 50

← PrevPage 18 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	s1-32B	Acc	56.7	—	Unverified
6	Search-o1	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	o1-preview	Accuracy	0.01	—	Unverified
4	GPT-4o	Accuracy	0.01	—	Unverified
5	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified
6	o1-mini	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified