Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–425 of 805 papers

Title	Date	Tasks	Status
WebChoreArena: Evaluating Web Browsing Agents on Realistic Tedious Web Tasks	Jun 2, 2025	Large Language ModelMathematical Reasoning	—Unverified
What Are Step-Level Reward Models Rewarding? Counterintuitive Findings from MCTS-Boosted Mathematical Reasoning	Dec 20, 2024	Mathematical Reasoning	—Unverified
Why are NLP Models Fumbling at Elementary Math? A Survey of Automatic Word Problem Solvers	Jan 16, 2022	MathMathematical Reasoning	—Unverified
Why are NLP Models Fumbling at Elementary Math? A Survey of Deep Learning based Word Problem Solvers	May 31, 2022	MathMathematical Reasoning	—Unverified
WirelessMathBench: A Mathematical Modeling Benchmark for LLMs in Wireless Communications	May 20, 2025	Mathematical ReasoningMultiple-choice	—Unverified
1bit-Merging: Dynamic Quantized Merging for Large Language Models	Feb 15, 2025	Code GenerationMath	—Unverified
You Need to Pay Better Attention: Rethinking the Mathematics of Attention Mechanism	Mar 3, 2024	Machine TranslationMathematical Reasoning	—Unverified
MathLearner: A Large Language Model Agent Framework for Learning to Solve Mathematical Problems	Aug 3, 2024	Language ModelingLanguage Modelling	—Unverified
AAPO: Enhance the Reasoning Capabilities of LLMs with Advantage Momentum	May 20, 2025	Mathematical ReasoningReinforcement Learning (RL)	—Unverified
A Careful Examination of Large Language Model Performance on Grade School Arithmetic	May 1, 2024	GSM8KLanguage Modeling	—Unverified
Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets	Apr 28, 2025	Data AugmentationDiversity	—Unverified
A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting	Jul 16, 2024	Mathematical ReasoningQuestion Answering	—Unverified
ActiveDPO: Active Direct Preference Optimization for Sample-Efficient Alignment	May 25, 2025	Code GenerationMathematical Reasoning	—Unverified
AdapThink: Adaptive Thinking Preferences for Reasoning Language Model	Jun 23, 2025	DiversityLanguage Modeling	—Unverified
AdaSwitch: Adaptive Switching between Small and Large Agents for Effective Cloud-Local Collaborative Learning	Oct 17, 2024	Mathematical ReasoningQuestion Answering	—Unverified
Advancing Mathematical Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages	Jan 23, 2025	Instruction FollowingMath	—Unverified
Adventures in Mathematical Reasoning	Aug 20, 2020	Mathematical Reasoning	—Unverified
Agent-as-a-Service based on Agent Network	May 13, 2025	Code GenerationMathematical Reasoning	—Unverified
Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning	Apr 28, 2025	Mathematical Reasoning	—Unverified
A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions	Dec 12, 2024	GSM8KKnowledge Graphs	—Unverified
AI4Math: A Native Spanish Benchmark for University-Level Mathematical Reasoning in Large Language Models	May 25, 2025	MathMathematical Reasoning	—Unverified
Aligning Tutor Discourse Supporting Rigorous Thinking with Tutee Content Mastery for Predicting Math Achievement	May 10, 2024	MathMathematical Reasoning	—Unverified
Amplify Adjacent Token Differences: Enhancing Long Chain-of-Thought Reasoning with Shift-FFN	May 22, 2025	Mathematical Reasoning	—Unverified
Anomaly Detection of Tabular Data Using LLMs	Jun 24, 2024	Anomaly DetectionLong-Context Understanding	—Unverified
Applications of Positive Unlabeled (PU) and Negative Unlabeled (NU) Learning in Cybersecurity	Dec 9, 2024	Intrusion DetectionMalware Detection	—Unverified

Show:10 25 50

← PrevPage 17 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	Search-o1	Acc	56.7	—	Unverified
6	s1-32B	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	GPT-4o	Accuracy	0.01	—	Unverified
4	o1-mini	Accuracy	0.01	—	Unverified
5	o1-preview	Accuracy	0.01	—	Unverified
6	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified