Mathematical Problem-Solving

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 106 papers

Title	Date	Tasks	Status	Hype
EvoAgentX: An Automated Framework for Evolving Agentic Workflows	Jul 4, 2025	Code GenerationMath	CodeCode Available	7
LocationReasoner: Evaluating LLMs on Real-World Site Selection Reasoning	Jun 16, 2025	Code GenerationMathematical Problem-Solving	CodeCode Available	0
TeleMath: A Benchmark for Large Language Models in Telecom Mathematical Problem Solving	Jun 12, 2025	Logical ReasoningMathematical Problem-Solving	—Unverified	0
SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning	Jun 10, 2025	Knowledge DistillationMath	CodeCode Available	1
Solving Inequality Proofs with Large Language Models	Jun 9, 2025	Mathematical Problem-SolvingRelation Prediction	CodeCode Available	1
Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation	Jun 8, 2025	Code GenerationMathematical Problem-Solving	CodeCode Available	0
MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning	Jun 5, 2025	Dataset GenerationMathematical Problem-Solving	CodeCode Available	1
PoLAR: Polar-Decomposed Low-Rank Adapter Representation	Jun 3, 2025	Mathematical Problem-SolvingRiemannian optimization	—Unverified	0
Evaluation of LLMs for mathematical problem solving	May 30, 2025	GSM8KMathematical Problem-Solving	—Unverified	0
Decomposing Elements of Problem Solving: What "Math" Does RL Teach?	May 28, 2025	MathMathematical Problem-Solving	CodeCode Available	0
Surrogate Signals from Format and Length: Reinforcement Learning for Solving Mathematical Problems without Ground Truth Answers	May 26, 2025	Logical ReasoningMathematical Problem-Solving	CodeCode Available	0
Error Typing for Smarter Rewards: Improving Process Reward Models with Error-Aware Hierarchical Supervision	May 26, 2025	HallucinationMath	CodeCode Available	0
RaDeR: Reasoning-aware Dense Retrieval Models	May 23, 2025	MathMathematical Problem-Solving	CodeCode Available	1
Can reasoning models comprehend mathematical problems in Chinese ancient texts? An empirical study based on data from Suanjing Shishu	May 22, 2025	Mathematical Problem-Solving	—Unverified	0
SMART: Self-Generating and Self-Validating Multi-Dimensional Assessment for LLMs' Mathematical Problem Solving	May 22, 2025	DiagnosticMathematical Problem-Solving	—Unverified	0
Towards Spoken Mathematical Reasoning: Benchmarking Speech-based Models over Multi-faceted Math Problems	May 21, 2025	BenchmarkingMath	—Unverified	0
HARDMath2: A Benchmark for Applied Mathematics Built by Students as Part of a Graduate Class	May 17, 2025	MathMathematical Problem-Solving	CodeCode Available	0
Reasoning with OmniThought: A Large CoT Dataset with Verbosity and Cognitive Difficulty Annotations	May 16, 2025	Code GenerationMathematical Problem-Solving	—Unverified	0
Is PRM Necessary? Problem-Solving RL Implicitly Induces PRM Capability in LLMs	May 16, 2025	Mathematical Problem-SolvingReinforcement Learning (RL)	—Unverified	0
PT-MoE: An Efficient Finetuning Framework for Integrating Mixture-of-Experts into Prompt Tuning	May 14, 2025	MathMathematical Problem-Solving	CodeCode Available	0
Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving	May 12, 2025	MathMathematical Problem-Solving	CodeCode Available	2
Reasoning Models Can Be Effective Without Thinking	Apr 14, 2025	Automated Theorem ProvingMathematical Problem-Solving	—Unverified	0
Holistic Capability Preservation: Towards Compact Yet Comprehensive Reasoning Models	Apr 9, 2025	Instruction FollowingMathematical Problem-Solving	—Unverified	0
On Vanishing Variance in Transformer Length Generalization	Apr 3, 2025	AttributeMathematical Problem-Solving	—Unverified	0
LearNAT: Learning NL2SQL with AST-guided Task Decomposition for Large Language Models	Apr 3, 2025	Mathematical Problem-SolvingPrompt Engineering	—Unverified	0
Exploring LLM Reasoning Through Controlled Prompt Variations	Apr 2, 2025	GSM8KMathematical Problem-Solving	CodeCode Available	0
Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics	Apr 1, 2025	MathMathematical Problem-Solving	—Unverified	0
Entropy-Based Adaptive Weighting for Self-Training	Mar 31, 2025	GSM8KMath	CodeCode Available	1
MathAgent: Leveraging a Mixture-of-Math-Agent Framework for Real-World Multimodal Mathematical Error Detection	Mar 23, 2025	MathMathematical Problem-Solving	—Unverified	0
A Survey on Mathematical Reasoning and Optimization with Large Language Models	Mar 22, 2025	Automated Theorem ProvingHeuristic Search	CodeCode Available	0
Does Chain-of-Thought Reasoning Help Mobile GUI Agent? An Empirical Study	Mar 21, 2025	AttributeMathematical Problem-Solving	CodeCode Available	0
MathFusion: Enhancing Mathematic Problem-solving of LLM through Instruction Fusion	Mar 20, 2025	Data AugmentationMathematical Problem-Solving	CodeCode Available	1
MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems	Mar 19, 2025	Mathematical Problem-Solving	CodeCode Available	0
Performance Comparison of Large Language Models on Advanced Calculus Problems	Mar 5, 2025	MathMathematical Problem-Solving	—Unverified	0
Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models	Mar 4, 2025	GSM8KMath	—Unverified	0
Nexus: A Lightweight and Scalable Multi-Agent Framework for Complex Tasks Automation	Feb 26, 2025	Code GenerationHumanEval	CodeCode Available	2
SECURA: Sigmoid-Enhanced CUR Decomposition with Uninterrupted Retention and Low-Rank Adaptation in Large Language Models	Feb 25, 2025	Continual LearningGSM8K	—Unverified	0
How Do Large Language Monkeys Get Their Power (Laws)?	Feb 24, 2025	Language ModelingLanguage Modelling	—Unverified	0
Forgotten Polygons: Multimodal Large Language Models are Shape-Blind	Feb 21, 2025	MathMathematical Problem-Solving	CodeCode Available	1
Navigating Semantic Relations: Challenges for Language Models in Abstract Common-Sense Reasoning	Feb 19, 2025	Common Sense ReasoningMathematical Problem-Solving	—Unverified	0
MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task	Feb 17, 2025	Code CompletionGSM8K	—Unverified	0
Scaling Autonomous Agents via Automatic Reward Modeling And Planning	Feb 17, 2025	Decision MakingMathematical Problem-Solving	—Unverified	0
STRIVE: Structured Reasoning for Self-Improvement in Claim Verification	Feb 17, 2025	Claim VerificationMathematical Problem-Solving	—Unverified	0
Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving	Feb 17, 2025	MathMathematical Problem-Solving	—Unverified	0
Code-Vision: Evaluating Multimodal LLMs Logic Understanding and Code Generation Capabilities	Feb 17, 2025	Code GenerationHumanEval	CodeCode Available	1
Exposing Numeracy Gaps: A Benchmark to Evaluate Fundamental Numerical Abilities in Large Language Models	Feb 16, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Adaptive Graph of Thoughts: Test-Time Adaptive Reasoning Unifying Chain, Tree, and Graph Structures	Feb 7, 2025	Mathematical Problem-Solvingreinforcement-learning	CodeCode Available	2
Advancing Reasoning in Large Language Models: Promising Methods and Approaches	Feb 5, 2025	Mathematical Problem-SolvingSurvey	—Unverified	0
Automating Mathematical Proof Generation Using Large Language Model Agents and Knowledge Graphs	Feb 4, 2025	Formal LogicKnowledge Graphs	—Unverified	0
Token-Hungry, Yet Precise: DeepSeek R1 Highlights the Need for Multi-Step Reasoning Over Speed in MATH	Jan 30, 2025	Language ModelingLanguage Modelling	—Unverified	0

Show:10 25 50

← PrevPage 1 of 3Next →

No leaderboard results yet.