Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–600 of 805 papers

Title	Date	Tasks	Status
Lynx: Enabling Efficient MoE Inference through Dynamic Batch-Aware Expert Selection	Nov 13, 2024	Code GenerationMathematical Reasoning	—Unverified
Gap-Filling Prompting Enhances Code-Assisted Mathematical Reasoning	Nov 8, 2024	Mathematical Reasoning	CodeCode Available
Benchmarking Large Language Models with Integer Sequence Generation Tasks	Nov 7, 2024	BenchmarkingComputational Efficiency	—Unverified
Kwai-STaR: Transform LLMs into State-Transition Reasoners	Nov 7, 2024	GSM8KMathematical Problem-Solving	—Unverified
FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI	Nov 7, 2024	Mathematical Reasoning	—Unverified
MoD: A Distribution-Based Approach for Merging Large Language Models	Nov 1, 2024	Mathematical Reasoning	CodeCode Available
STEM-POM: Evaluating Language Models Math-Symbol Reasoning in Document Parsing	Nov 1, 2024	2kIn-Context Learning	—Unverified
VisAidMath: Benchmarking Visual-Aided Mathematical Reasoning	Oct 30, 2024	BenchmarkingHallucination	—Unverified
Flow-DPO: Improving LLM Mathematical Reasoning through Online Multi-Agent Learning	Oct 29, 2024	Mathematical Reasoning	—Unverified
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models	Oct 29, 2024	MathMathematical Reasoning	—Unverified
Library Learning Doesn't: The Curious Case of the Single-Use "Library"	Oct 26, 2024	MathMathematical Reasoning	CodeCode Available
GFlowNet Fine-tuning for Diverse Correct Solutions in Mathematical Reasoning Tasks	Oct 26, 2024	DiversityMathematical Reasoning	—Unverified
ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning	Oct 24, 2024	GSM8KMath	—Unverified
SIKeD: Self-guided Iterative Knowledge Distillation for mathematical reasoning	Oct 24, 2024	Knowledge DistillationMathematical Reasoning	CodeCode Available
Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks	Oct 24, 2024	Logical ReasoningMathematical Problem-Solving	—Unverified
Markov Chain of Thought for Efficient Mathematical Reasoning	Oct 23, 2024	Mathematical Reasoning	—Unverified
Can Large Language Models Invent Algorithms to Improve Themselves?	Oct 21, 2024	Mathematical Reasoning	—Unverified
Keep Guessing? When Considering Inference Scaling, Mind the Baselines	Oct 20, 2024	Mathematical Reasoning	—Unverified
Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology	Oct 19, 2024	Logical ReasoningMath	—Unverified
Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning	Oct 18, 2024	MathMathematical Reasoning	—Unverified
How Numerical Precision Affects Mathematical Reasoning Capabilities of LLMs	Oct 17, 2024	Mathematical Reasoning	—Unverified
AdaSwitch: Adaptive Switching between Small and Large Agents for Effective Cloud-Local Collaborative Learning	Oct 17, 2024	Mathematical ReasoningQuestion Answering	—Unverified
Enhancing Mathematical Reasoning in LLMs by Stepwise Correction	Oct 16, 2024	Mathematical Reasoning	—Unverified
Not All Votes Count! Programs as Verifiers Improve Self-Consistency of Language Models for Math Reasoning	Oct 16, 2024	AllGSM8K	CodeCode Available
MIND: Math Informed syNthetic Dialogues for Pretraining LLMs	Oct 15, 2024	GSM8KMath	—Unverified
Augmenting In-Context-Learning in LLMs via Automatic Data Labeling and Refinement	Oct 14, 2024	In-Context LearningMathematical Reasoning	—Unverified
Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning	Oct 14, 2024	MathMathematical Reasoning	—Unverified
How to Leverage Demonstration Data in Alignment for Large Language Model? A Self-Imitation Learning Perspective	Oct 14, 2024	Density Ratio EstimationGSM8K	CodeCode Available
Expanding Search Space with Diverse Prompting Agents: An Efficient Sampling Approach for LLM Mathematical Reasoning	Oct 13, 2024	MathMathematical Reasoning	—Unverified
A Systematic Survey on Large Language Models for Algorithm Design	Oct 11, 2024	Mathematical Reasoningscientific discovery	—Unverified
Teaching-Inspired Integrated Prompting Framework: A Novel Approach for Enhancing Reasoning in Large Language Models	Oct 10, 2024	Arithmetic ReasoningMath	CodeCode Available
Diversity of Thought Elicits Stronger Reasoning Capabilities in Multi-Agent Debate Frameworks	Oct 10, 2024	8kDiversity	—Unverified
TPO: Aligning Large Language Models with Multi-branch & Multi-step Preference Trees	Oct 10, 2024	Mathematical Reasoning	—Unverified
VerifierQ: Enhancing LLM Test Time Compute with Q-Learning-based Verifiers	Oct 10, 2024	Mathematical ReasoningQ-Learning	—Unverified
Herald: A Natural Language Annotated Lean 4 Dataset	Oct 9, 2024	MathMathematical Reasoning	—Unverified
Towards Self-Improvement of LLMs via MCTS: Leveraging Stepwise Knowledge with Curriculum Preference Learning	Oct 9, 2024	Mathematical Reasoning	—Unverified
PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness	Oct 9, 2024	Mathematical Reasoning	—Unverified
Subtle Errors Matter: Preference Learning via Error-injected Self-editing	Oct 9, 2024	GSM8KMath	—Unverified
Beyond Captioning: Task-Specific Prompting for Improved VLM Performance in Mathematical Reasoning	Oct 8, 2024	Image RetrievalMath	—Unverified
FG-PRM: Fine-grained Hallucination Detection and Mitigation in Language Model Mathematical Reasoning	Oct 8, 2024	GSM8KHallucination	—Unverified
Give me a hint: Can LLMs take a hint to solve math problems?	Oct 8, 2024	Adversarial RobustnessMath	CodeCode Available
MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs	Oct 7, 2024	Information RetrievalMathematical Reasoning	—Unverified
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection	Oct 6, 2024	BenchmarkingMathematical Reasoning	—Unverified
Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark	Oct 6, 2024	Mathematical ReasoningSpatial Reasoning	CodeCode Available
TUBench: Benchmarking Large Vision-Language Models on Trustworthiness with Unanswerable Questions	Oct 5, 2024	BenchmarkingHallucination	CodeCode Available
Table Question Answering for Low-resourced Indic Languages	Oct 4, 2024	Cross-Lingual TransferMathematical Reasoning	CodeCode Available
CodePMP: Scalable Preference Model Pretraining for Large Language Model Reasoning	Oct 3, 2024	GSM8KLanguage Modeling	—Unverified
GraphIC: A Graph-Based In-Context Example Retrieval Model for Multi-Step Reasoning	Oct 3, 2024	Code GenerationIn-Context Learning	—Unverified
Guided Stream of Search: Learning to Better Search with Language Models via Optimal Path Guidance	Oct 3, 2024	Mathematical Reasoning	CodeCode Available
Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models	Oct 2, 2024	Cross-Lingual TransferMath	—Unverified

Show:10 25 50

← PrevPage 12 of 17Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	Search-o1	Acc	56.7	—	Unverified
6	s1-32B	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	GPT-4o	Accuracy	0.01	—	Unverified
4	o1-mini	Accuracy	0.01	—	Unverified
5	o1-preview	Accuracy	0.01	—	Unverified
6	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified