Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–750 of 805 papers

Title	Date	Tasks	Status
Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad	Mar 27, 2025	MathMathematical Reasoning	—Unverified
ProRefine: Inference-time Prompt Refinement with Textual Feedback	Jun 5, 2025	Mathematical Reasoning	—Unverified
Quantization Meets Reasoning: Exploring LLM Low-Bit Quantization Degradation for Mathematical Reasoning	Jan 6, 2025	MathMathematical Reasoning	—Unverified
Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement	Sep 18, 2024	GSM8KMath	—Unverified
Random Feedback Alignment Algorithms to train Neural Networks: Why do they Align?	Jun 4, 2023	Mathematical Reasoning	—Unverified
Real-Time Verification of Embodied Reasoning for Generative Skill Acquisition	May 16, 2025	Mathematical Reasoning	—Unverified
ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning	Oct 24, 2024	GSM8KMath	—Unverified
Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment	Feb 5, 2025	GSM8KHumanEval	—Unverified
Reasoning in Conversation: Solving Subjective Tasks through Dialogue Simulation for Large Language Models	Feb 27, 2024	Dark Humor DetectionDialogue Generation	—Unverified
MMLU-SR: A Benchmark for Stress-Testing Reasoning Capability of Large Language Models	Jun 15, 2024	Mathematical ReasoningMMLU	—Unverified
Recognizing and Verifying Mathematical Equations using Multiplicative Differential Neural Units	Apr 7, 2021	Mathematical Reasoning	—Unverified
Reinforcement Learning from Reflective Feedback (RLRF): Aligning and Improving LLMs via Fine-Grained Self-Reflection	Mar 21, 2024	Mathematical Reasoning	—Unverified
Reliable and Efficient Amortized Model-based Evaluation	Mar 17, 2025	DiagnosticMathematical Reasoning	—Unverified
Reliable Natural Language Understanding with Large Language Models and Answer Set Programming	Feb 7, 2023	Mathematical ReasoningNatural Language Understanding	—Unverified
Reliable Reasoning Beyond Natural Language	Jul 16, 2024	GSM8KMathematical Reasoning	—Unverified
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs	Apr 15, 2025	MathMathematical Reasoning	—Unverified
Retrieval-Augmented Process Reward Model for Generalizable Mathematical Reasoning	Feb 20, 2025	Mathematical ReasoningRetrieval	—Unverified
Revisiting Chain-of-Thought Prompting: Zero-shot Can Be Stronger than Few-shot	Jun 17, 2025	In-Context LearningMathematical Reasoning	—Unverified
Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness	May 29, 2025	DiversityLarge Language Model	—Unverified
Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt	May 29, 2025	Mathematical Reasoning	—Unverified
Revisiting Self-Consistency from Dynamic Distributional Alignment Perspective on Answer Aggregation	Feb 27, 2025	DiversityMathematical Reasoning	—Unverified
Revisiting Test-Time Scaling: A Survey and a Diversity-Aware Method for Efficient Reasoning	Jun 5, 2025	DiversityMathematical Reasoning	—Unverified
Revisiting the Superficial Alignment Hypothesis	Sep 27, 2024	Instruction FollowingMath	—Unverified
RL-finetuning LLMs from on- and off-policy data with a single algorithm	Mar 25, 2025	Mathematical Reasoning	—Unverified
Robustness Assessment of Mathematical Reasoning in the Presence of Missing and Contradictory Conditions	Jun 7, 2024	HallucinationMathematical Reasoning	—Unverified
RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library	Apr 29, 2025	Data AugmentationMathematical Reasoning	—Unverified
S^3c-Math: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners	Sep 3, 2024	GSM8KMath	—Unverified
SAAS: Solving Ability Amplification Strategy for Enhanced Mathematical Reasoning in Large Language Models	Apr 5, 2024	Mathematical Reasoning	—Unverified
Sail into the Headwind: Alignment via Robust Rewards and Dynamic Labels against Reward Hacking	Dec 12, 2024	Mathematical Reasoning	—Unverified
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models	Apr 4, 2025	GSM8KMathematical Reasoning	—Unverified
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search	Feb 4, 2025	Mathematical Reasoning	—Unverified
SAT Solvers and Computer Algebra Systems: A Powerful Combination for Mathematics	Jul 9, 2019	Mathematical ProofsMathematical Reasoning	—Unverified
SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization	May 18, 2025	MathMathematical Reasoning	—Unverified
Selective Code Generation for Functional Guarantees	May 19, 2025	Code GenerationHallucination	—Unverified
Selective Self-to-Supervised Fine-Tuning for Generalization in Large Language Models	Feb 12, 2025	Mathematical ReasoningMMLU	—Unverified
Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models	Mar 4, 2025	GSM8KMath	—Unverified
Self-Training Large Language Models for Tool-Use Without Demonstrations	Feb 9, 2025	GSM8KMathematical Reasoning	—Unverified
Sens-Merging: Sensitivity-Guided Parameter Balancing for Merging Large Language Models	Feb 18, 2025	Code GenerationGeneral Knowledge	—Unverified
Can Graph Descriptive Order Affect Solving Graph Problems with LLMs?	Feb 11, 2024	DescriptiveLanguage Modelling	—Unverified
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models	Aug 28, 2024	Data AugmentationGSM8K	—Unverified
Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models	Aug 1, 2023	In-Context LearningMath	—Unverified
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On	Jul 11, 2024	GSM8KMath	—Unverified
Slimming Down LLMs Without Losing Their Minds	Jun 12, 2025	Computational EfficiencyGSM8K	—Unverified
SMART: A Situation Model for Algebra Story Problems via Attributed Grammar	Dec 27, 2020	MathMathematical Reasoning	—Unverified
SMART: Self-Generating and Self-Validating Multi-Dimensional Assessment for LLMs' Mathematical Problem Solving	May 22, 2025	DiagnosticMathematical Problem-Solving	—Unverified
SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs	Dec 11, 2024	ARCGSM8K	—Unverified
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning	Apr 27, 2025	Large Language ModelMathematical Reasoning	—Unverified
Speculative Decoding for Multi-Sample Inference	Mar 7, 2025	Mathematical Reasoning	—Unverified
SSR: Speculative Parallel Scaling Reasoning in Test-time	May 21, 2025	DiversityMath	—Unverified
STEM-POM: Evaluating Language Models Math-Symbol Reasoning in Document Parsing	Nov 1, 2024	2kIn-Context Learning	—Unverified

Show:10 25 50

← PrevPage 15 of 17Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	Search-o1	Acc	56.7	—	Unverified
6	s1-32B	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	GPT-4o	Accuracy	0.01	—	Unverified
4	o1-mini	Accuracy	0.01	—	Unverified
5	o1-preview	Accuracy	0.01	—	Unverified
6	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified