Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 805 papers

Title	Date	Tasks	Status
Evaluating Grounded Reasoning by Code-Assisted Large Language Models for Mathematics	Apr 24, 2025	Code GenerationMath	—Unverified
DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training	Apr 24, 2025	Mathematical Reasoning	—Unverified
Parameter-Efficient Checkpoint Merging via Metrics-Weighted Averaging	Apr 23, 2025	Mathematical Reasoningparameter-efficient fine-tuning	—Unverified
Improving RL Exploration for LLM Reasoning through Retrospective Replay	Apr 19, 2025	Code GenerationMathematical Reasoning	—Unverified
BitNet b1.58 2B4T Technical Report	Apr 16, 2025	Computational EfficiencyCPU	—Unverified
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs	Apr 15, 2025	MathMathematical Reasoning	—Unverified
Assessment of Evolving Large Language Models in Upper Secondary Mathematics	Apr 15, 2025	Mathematical Reasoning	—Unverified
Enhancing Mathematical Reasoning in Large Language Models with Self-Consistency-Based Hallucination Detection	Apr 13, 2025	Answer SelectionAutomated Theorem Proving	—Unverified
Supervised Optimism Correction: Be Confident When LLMs Are Sure	Apr 10, 2025	GSM8KMath	—Unverified
Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use	Apr 7, 2025	GSM8KMath	—Unverified
Explain with Visual Keypoints Like a Real Mentor! A Benchmark for Multimodal Solution Explanation	Apr 4, 2025	MathMathematical Reasoning	—Unverified
Do LLM Evaluators Prefer Themselves for a Reason?	Apr 4, 2025	BenchmarkingCode Generation	CodeCode Available
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models	Apr 4, 2025	GSM8KMathematical Reasoning	—Unverified
LexPam: Legal Procedure Awareness-Guided Mathematical Reasoning	Apr 3, 2025	Mathematical ReasoningQuestion Answering	—Unverified
LLM Library Learning Fails: A LEGO-Prover Case Study	Apr 3, 2025	Mathematical ReasoningMisconceptions	—Unverified
LLM for Complex Reasoning Task: An Exploratory Study in Fermi Problems	Apr 3, 2025	Mathematical Reasoning	—Unverified
How Difficulty-Aware Staged Reinforcement Learning Enhances LLMs' Reasoning Capabilities: A Preliminary Experimental Study	Apr 1, 2025	Code GenerationMath	—Unverified
Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics	Apr 1, 2025	MathMathematical Problem-Solving	—Unverified
VerifiAgent: a Unified Verification Agent in Language Model Reasoning	Apr 1, 2025	Language ModelingLanguage Modelling	CodeCode Available
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning	Apr 1, 2025	MathMathematical Reasoning	—Unverified
The Axiom-Based Atlas: A Structural Mapping of Theorems via Foundational Proof Vectors	Mar 31, 2025	Mathematical Reasoning	—Unverified
Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains	Mar 31, 2025	Mathematical Reasoningreinforcement-learning	—Unverified
SWI: Speaking with Intent in Large Language Models	Mar 27, 2025	Mathematical ReasoningQuestion Answering	CodeCode Available
Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad	Mar 27, 2025	MathMathematical Reasoning	—Unverified
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models	Mar 27, 2025	Data VisualizationMath	CodeCode Available
Entropy-Aware Branching for Improved Mathematical Reasoning	Mar 27, 2025	Mathematical Reasoning	—Unverified
MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams	Mar 26, 2025	Mathematical ReasoningObject Counting	—Unverified
Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence	Mar 26, 2025	Mathematical Reasoning	CodeCode Available
RL-finetuning LLMs from on- and off-policy data with a single algorithm	Mar 25, 2025	Mathematical Reasoning	—Unverified
Learning to chain-of-thought with Jensen's evidence lower bound	Mar 25, 2025	Mathematical Reasoningreinforcement-learning	—Unverified
Innate Reasoning is Not Enough: In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking	Mar 25, 2025	In-Context LearningMathematical Reasoning	—Unverified
Process or Result? Manipulated Ending Tokens Can Mislead Reasoning LLMs to Ignore the Correct Reasoning Steps	Mar 25, 2025	Mathematical Reasoning	—Unverified
CLEAR: Contrasting Textual Feedback with Experts and Amateurs for Reasoning	Mar 24, 2025	Language ModelingLanguage Modelling	—Unverified
Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?	Mar 23, 2025	GSM8KMath	CodeCode Available
A Survey on Mathematical Reasoning and Optimization with Large Language Models	Mar 22, 2025	Automated Theorem ProvingHeuristic Search	CodeCode Available
Temporal Consistency for LLM Reasoning Process Error Identification	Mar 18, 2025	Mathematical Reasoning	CodeCode Available
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning	Mar 17, 2025	Mathematical ReasoningMultimodal Reasoning	—Unverified
Pensez: Less Data, Better Reasoning -- Rethinking French LLM	Mar 17, 2025	Large Language ModelMath	—Unverified
Reliable and Efficient Amortized Model-based Evaluation	Mar 17, 2025	DiagnosticMathematical Reasoning	—Unverified
Evaluating Mathematical Reasoning Across Large Language Models: A Fine-Grained Approach	Mar 13, 2025	Formal LogicMathematical Reasoning	—Unverified
VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models	Mar 10, 2025	Binary ClassificationHallucination	CodeCode Available
Speculative Decoding for Multi-Sample Inference	Mar 7, 2025	Mathematical Reasoning	—Unverified
Pi-GPS: Enhancing Geometry Problem Solving by Unleashing the Power of Diagrammatic Information	Mar 7, 2025	Geometry Problem SolvingMathematical Reasoning	—Unverified
Better Process Supervision with Bi-directional Rewarding Signals	Mar 6, 2025	Language ModelingLanguage Modelling	—Unverified
Towards Understanding Multi-Round Large Language Model Reasoning: Approximability, Learnability and Generalizability	Mar 5, 2025	Language ModelingLanguage Modelling	—Unverified
Process-based Self-Rewarding Language Models	Mar 5, 2025	Mathematical Reasoning	CodeCode Available
An Efficient and Precise Training Data Construction Framework for Process-supervised Reward Model in Mathematical Reasoning	Mar 4, 2025	Mathematical Reasoning	CodeCode Available
Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models	Mar 4, 2025	GSM8KMath	—Unverified
None of the Above, Less of the Right: Parallel Patterns between Humans and LLMs on Multi-Choice Questions Answering	Mar 3, 2025	Business EthicsEthics	—Unverified
MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts	Feb 28, 2025	MathMathematical Reasoning	—Unverified

Show:10 25 50

← PrevPage 9 of 17Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	Search-o1	Acc	56.7	—	Unverified
6	s1-32B	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	GPT-4o	Accuracy	0.01	—	Unverified
4	o1-mini	Accuracy	0.01	—	Unverified
5	o1-preview	Accuracy	0.01	—	Unverified
6	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified