Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–725 of 805 papers

Title	Date	Tasks	Status
MathScale: Scaling Instruction Tuning for Mathematical Reasoning	Mar 5, 2024	GSM8KMath	CodeCode Available
Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning	Mar 4, 2024	GSM8KMath	—Unverified
You Need to Pay Better Attention: Rethinking the Mathematics of Attention Mechanism	Mar 3, 2024	Machine TranslationMathematical Reasoning	—Unverified
Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models	Mar 1, 2024	BenchmarkingMathematical Reasoning	—Unverified
MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning	Feb 27, 2024	8kLanguage Modeling	CodeCode Available
Reasoning in Conversation: Solving Subjective Tasks through Dialogue Simulation for Large Language Models	Feb 27, 2024	Dark Humor DetectionDialogue Generation	—Unverified
MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs	Feb 26, 2024	GSM8KMath	—Unverified
Look Before You Leap: Problem Elaboration Prompting Improves Mathematical Reasoning in Large Language Models	Feb 24, 2024	GSM8KMathematical Reasoning	—Unverified
How Do Humans Write Code? Large Models Do It the Same Way Too	Feb 24, 2024	Code GenerationMath	CodeCode Available
Brain-Inspired Two-Stage Approach: Enhancing Mathematical Reasoning by Imitating Human Thought Processes	Feb 23, 2024	MathMathematical Reasoning	CodeCode Available
Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models	Feb 20, 2024	Instruction FollowingLogical Reasoning	—Unverified
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement	Feb 18, 2024	Mathematical ReasoningText Generation	CodeCode Available
Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering	Feb 17, 2024	Arithmetic ReasoningMathematical Reasoning	—Unverified
Reasoning over Uncertain Text by Generative Large Language Models	Feb 14, 2024	Decision MakingMathematical Reasoning	CodeCode Available
Fourier Circuits in Neural Networks and Transformers: A Case Study of Modular Arithmetic with Multiple Inputs	Feb 12, 2024	2kMathematical Reasoning	—Unverified
Can Graph Descriptive Order Affect Solving Graph Problems with LLMs?	Feb 11, 2024	DescriptiveLanguage Modelling	—Unverified
Beyond Lines and Circles: Unveiling the Geometric Reasoning Gap in Large Language Models	Feb 6, 2024	Mathematical ReasoningVariable Selection	—Unverified
Large Language Models for Mathematical Reasoning: Progresses and Challenges	Jan 31, 2024	DiversityMath	—Unverified
Efficient Tool Use with Chain-of-Abstraction Reasoning	Jan 30, 2024	MathMathematical Reasoning	—Unverified
Large Multi-Modal Models (LMMs) as Universal Foundation Models for AI-Native Wireless Systems	Jan 30, 2024	Mathematical ReasoningRAG	—Unverified
GAPS: Geometry-Aware Problem Solver	Jan 29, 2024	Geometry Problem SolvingMath	—Unverified
Demystifying Chains, Trees, and Graphs of Thoughts	Jan 25, 2024	Mathematical ReasoningPrompt Engineering	—Unverified
Distilling Mathematical Reasoning Capabilities into Small Language Models	Jan 22, 2024	Mathematical Reasoning	—Unverified
CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities	Jan 13, 2024	MathMathematical Reasoning	—Unverified
Olapa-MCoT: Enhancing the Chinese Mathematical Reasoning Capability of LLMs	Dec 29, 2023	Mathematical Reasoning	—Unverified

Show:10 25 50

← PrevPage 29 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	Search-o1	Acc	56.7	—	Unverified
6	s1-32B	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	GPT-4o	Accuracy	0.01	—	Unverified
4	o1-mini	Accuracy	0.01	—	Unverified
5	o1-preview	Accuracy	0.01	—	Unverified
6	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified