Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 776–800 of 805 papers

Title	Date	Tasks	Status
Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning	Feb 24, 2025	MathMathematical Reasoning	CodeCode Available
Library Learning Doesn't: The Curious Case of the Single-Use "Library"	Oct 26, 2024	MathMathematical Reasoning	CodeCode Available
Adaptive Graph Pruning for Multi-Agent Communication	Jun 3, 2025	Code GenerationLarge Language Model	CodeCode Available
LEMMA: Bootstrapping High-Level Mathematical Reasoning with Learned Symbolic Abstractions	Nov 16, 2022	LEMMAMathematical Reasoning	CodeCode Available
Learning to Prove Theorems via Interacting with Proof Assistants	May 21, 2019	Automated Theorem ProvingMathematical Proofs	CodeCode Available
Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think	Apr 29, 2025	Mathematical Reasoning	CodeCode Available
Large Language Models for Mathematical Analysis	Dec 28, 2024	Mathematical Problem-SolvingMathematical Reasoning	CodeCode Available
Weakly Supervised Formula Learner for Solving Mathematical Problems	Oct 1, 2022	Mathematical ReasoningQuestion Answering	CodeCode Available
Unraveling Misinformation Propagation in LLM Reasoning	May 24, 2025	Mathematical ReasoningMisinformation	CodeCode Available
SIKeD: Self-guided Iterative Knowledge Distillation for mathematical reasoning	Oct 24, 2024	Knowledge DistillationMathematical Reasoning	CodeCode Available
SituatedThinker: Grounding LLM Reasoning with Real-World through Situated Thinking	May 25, 2025	Mathematical ReasoningMulti-hop Question Answering	CodeCode Available
Do LLM Evaluators Prefer Themselves for a Reason?	Apr 4, 2025	BenchmarkingCode Generation	CodeCode Available
KVTuner: Sensitivity-Aware Layer-wise Mixed Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference	Feb 6, 2025	Mathematical ReasoningQuantization	CodeCode Available
Discriminative Policy Optimization for Token-Level Reward Models	May 29, 2025	GSM8KLanguage Modeling	CodeCode Available
Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation	Jul 2, 2024	Code GenerationForm	CodeCode Available
Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models	Apr 28, 2025	Mathematical ReasoningMeta-Learning	CodeCode Available
Scaling Reasoning can Improve Factuality in Large Language Models	May 16, 2025	Knowledge GraphsLarge Language Model	CodeCode Available
Discovering Hierarchical Latent Capabilities of Language Models via Causal Representation Learning	Jun 12, 2025	Instruction FollowingMathematical Reasoning	CodeCode Available
Smart Vision-Language Reasoners	Jul 5, 2024	MathMathematical Reasoning	CodeCode Available
Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS	Nov 27, 2024	In-Context LearningMath	CodeCode Available
Instructing Large Language Models to Identify and Ignore Irrelevant Conditions	Mar 19, 2024	MathMathematical Reasoning	CodeCode Available
How to Leverage Demonstration Data in Alignment for Large Language Model? A Self-Imitation Learning Perspective	Oct 14, 2024	Density Ratio EstimationGSM8K	CodeCode Available
How Do Humans Write Code? Large Models Do It the Same Way Too	Feb 24, 2024	Code GenerationMath	CodeCode Available
Decomposing Elements of Problem Solving: What "Math" Does RL Teach?	May 28, 2025	MathMathematical Problem-Solving	CodeCode Available
AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations	Nov 22, 2023	Common Sense ReasoningGSM8K	CodeCode Available

Show:10 25 50

← PrevPage 32 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	Search-o1	Acc	56.7	—	Unverified
6	s1-32B	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	GPT-4o	Accuracy	0.01	—	Unverified
4	o1-mini	Accuracy	0.01	—	Unverified
5	o1-preview	Accuracy	0.01	—	Unverified
6	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified