Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 805 papers

Title	Date	Tasks	Status
Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models	Feb 27, 2025	Mathematical ReasoningMulti-Armed Bandits	—Unverified
Revisiting Self-Consistency from Dynamic Distributional Alignment Perspective on Answer Aggregation	Feb 27, 2025	DiversityMathematical Reasoning	—Unverified
OmniRouter: Budget and Performance Controllable Multi-LLM Routing	Feb 27, 2025	AI AgentMathematical Reasoning	CodeCode Available
Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing	Feb 27, 2025	Document SummarizationLarge Language Model	—Unverified
Thinking Slow, Fast: Scaling Inference Compute with Distilled Reasoners	Feb 27, 2025	MambaMathematical Reasoning	—Unverified
Weaker LLMs' Opinions Also Matter: Mixture of Opinions Enhances LLM's Mathematical Reasoning	Feb 26, 2025	GSM8KMathematical Reasoning	—Unverified
LeanProgress: Guiding Search for Neural Theorem Proving via Proof Progress Prediction	Feb 25, 2025	Automated Theorem ProvingMathematical Reasoning	—Unverified
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning	Feb 25, 2025	MathMathematical Reasoning	—Unverified
Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning	Feb 24, 2025	MathMathematical Reasoning	CodeCode Available
The Relationship Between Reasoning and Performance in Large Language Models -- o3 (mini) Thinks Harder, Not Longer	Feb 21, 2025	MathMathematical Reasoning	CodeCode Available
Retrieval-Augmented Process Reward Model for Generalizable Mathematical Reasoning	Feb 20, 2025	Mathematical ReasoningRetrieval	—Unverified
Full-Step-DPO: Self-Supervised Preference Optimization with Step-wise Rewards for Mathematical Reasoning	Feb 20, 2025	Mathematical Reasoning	—Unverified
CER: Confidence Enhanced Reasoning in LLMs	Feb 20, 2025	MathMathematical Reasoning	CodeCode Available
From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education	Feb 19, 2025	DiagnosticGSM8K	—Unverified
Theorem Prover as a Judge for Synthetic Data Generation	Feb 18, 2025	Mathematical ProofsMathematical Reasoning	—Unverified
Integrating Arithmetic Learning Improves Mathematical Reasoning in Smaller Models	Feb 18, 2025	Data AugmentationGSM8K	—Unverified
Sens-Merging: Sensitivity-Guided Parameter Balancing for Merging Large Language Models	Feb 18, 2025	Code GenerationGeneral Knowledge	—Unverified
Large Language Models and Mathematical Reasoning Failures	Feb 17, 2025	Mathematical ReasoningPhysical Intuition	—Unverified
Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving	Feb 17, 2025	MathMathematical Problem-Solving	—Unverified
MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task	Feb 17, 2025	Code CompletionGSM8K	—Unverified
Uncertainty-Aware Step-wise Verification with Generative Reward Models	Feb 16, 2025	Mathematical ReasoningUncertainty Quantification	—Unverified
Leveraging Constrained Monte Carlo Tree Search to Generate Reliable Long Chain-of-Thought for Mathematical Reasoning	Feb 16, 2025	Mathematical Reasoning	—Unverified
1bit-Merging: Dynamic Quantized Merging for Large Language Models	Feb 15, 2025	Code GenerationMath	—Unverified
Evaluating the Meta- and Object-Level Reasoning of Large Language Models for Question Answering	Feb 14, 2025	Mathematical ReasoningObject	—Unverified
GoRA: Gradient-driven Adaptive Low Rank Adaptation	Feb 13, 2025	Computational EfficiencyMathematical Reasoning	—Unverified
Selective Self-to-Supervised Fine-Tuning for Generalization in Large Language Models	Feb 12, 2025	Mathematical ReasoningMMLU	—Unverified
Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges	Feb 12, 2025	GSM8KMath	CodeCode Available
One Example Shown, Many Concepts Known! Counterexample-Driven Conceptual Reasoning in Mathematical LLMs	Feb 12, 2025	Mathematical Reasoning	—Unverified
LLMs can implicitly learn from mistakes in-context	Feb 12, 2025	Mathematical Reasoning	—Unverified
Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning	Feb 11, 2025	Code GenerationMath	CodeCode Available
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations	Feb 10, 2025	BenchmarkingIn-Context Learning	—Unverified
Self-Training Large Language Models for Tool-Use Without Demonstrations	Feb 9, 2025	GSM8KMathematical Reasoning	—Unverified
Evolving LLMs' Self-Refinement Capability via Iterative Preference Optimization	Feb 8, 2025	GSM8KMath	—Unverified
KVTuner: Sensitivity-Aware Layer-wise Mixed Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference	Feb 6, 2025	Mathematical ReasoningQuantization	CodeCode Available
LLMs can be easily Confused by Instructional Distractions	Feb 5, 2025	Bias DetectionCode Generation	—Unverified
Path Planning for Masked Diffusion Model Sampling	Feb 5, 2025	Code GenerationIn-Context Learning	—Unverified
Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment	Feb 5, 2025	GSM8KHumanEval	—Unverified
Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning	Feb 5, 2025	Language ModelingLanguage Modelling	—Unverified
Premise-Augmented Reasoning Chains Improve Error Identification in Math reasoning with LLMs	Feb 4, 2025	MathMathematical Reasoning	—Unverified
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search	Feb 4, 2025	Mathematical Reasoning	—Unverified
Policy Guided Tree Search for Enhanced LLM Reasoning	Feb 4, 2025	Mathematical ReasoningNavigate	—Unverified
MergeME: Model Merging Techniques for Homogeneous and Heterogeneous MoEs	Feb 3, 2025	Mathematical ReasoningMixture-of-Experts	—Unverified
Language Models Use Trigonometry to Do Addition	Feb 2, 2025	Language ModelingLanguage Modelling	—Unverified
Bridging the Reasoning Gap: Small LLMs Can Plan with Generalised Strategies	Jan 31, 2025	Mathematical Reasoning	CodeCode Available
Improving Rule-based Reasoning in LLMs via Neurosymbolic Representations	Jan 31, 2025	Mathematical Reasoning	—Unverified
LemmaHead: RAG Assisted Proof Generation Using Large Language Models	Jan 27, 2025	Automated Theorem ProvingMathematical Proofs	—Unverified
From Informal to Formal -- Incorporating and Evaluating LLMs on Natural Language Requirements to Verifiable Formal Proofs	Jan 27, 2025	4kMathematical Reasoning	—Unverified
Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework	Jan 26, 2025	MathMathematical Reasoning	—Unverified
The Karp Dataset	Jan 24, 2025	BenchmarkingMathematical Reasoning	—Unverified
Coarse-to-Fine Process Reward Modeling for Enhanced Mathematical Reasoning	Jan 23, 2025	AttributeMathematical Reasoning	—Unverified

Show:10 25 50

← PrevPage 10 of 17Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	s1-32B	Acc	56.7	—	Unverified
6	Search-o1	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	o1-preview	Accuracy	0.01	—	Unverified
4	GPT-4o	Accuracy	0.01	—	Unverified
5	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified
6	o1-mini	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified