Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–700 of 805 papers

Title	Date	Tasks	Status
Applying RLAIF for Code Generation with API-usage in Lightweight LLMs	Jun 28, 2024	Code GenerationHallucination	—Unverified
Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts	Jun 24, 2024	Mathematical ReasoningVisual Question Answering (VQA)	—Unverified
Anomaly Detection of Tabular Data Using LLMs	Jun 24, 2024	Anomaly DetectionLong-Context Understanding	—Unverified
Evaluating Large Vision-and-Language Models on Children's Mathematical Olympiads	Jun 22, 2024	Mathematical Reasoning	—Unverified
Mathador-LM: A Dynamic Benchmark for Mathematical Reasoning on Large Language Models	Jun 18, 2024	Mathematical Reasoning	CodeCode Available
CodeGemma: Open Code Models Based on Gemma	Jun 17, 2024	Code CompletionMathematical Reasoning	—Unverified
Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning	Jun 16, 2024	BenchmarkingMath	—Unverified
MMLU-SR: A Benchmark for Stress-Testing Reasoning Capability of Large Language Models	Jun 15, 2024	Mathematical ReasoningMMLU	—Unverified
ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Models	Jun 13, 2024	Code Generationdomain classification	—Unverified
Robustness Assessment of Mathematical Reasoning in the Presence of Missing and Contradictory Conditions	Jun 7, 2024	HallucinationMathematical Reasoning	—Unverified
LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs	Jun 7, 2024	Mathematical ReasoningMultiple-choice	CodeCode Available
Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models	Jun 6, 2024	Arithmetic ReasoningCode Generation	—Unverified
Improve Mathematical Reasoning in Language Models by Automated Process Supervision	Jun 5, 2024	GSM8KMath	—Unverified
Assessing the Emergent Symbolic Reasoning Abilities of Llama Large Language Models	Jun 5, 2024	Mathematical Reasoning	—Unverified
NUMCoT: Numerals and Units of Measurement in Chain-of-Thought Reasoning using Large Language Models	Jun 5, 2024	MathMathematical Reasoning	CodeCode Available
Pre-trained Large Language Models Use Fourier Features to Compute Addition	Jun 5, 2024	Mathematical Reasoning	—Unverified
IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models	Jun 5, 2024	Mathematical ReasoningNatural Language Inference	—Unverified
Exploring Mathematical Extrapolation of Large Language Models with Synthetic Data	Jun 4, 2024	Mathematical ReasoningText Generation	—Unverified
Evaluating Mathematical Reasoning of Large Language Models: A Focus on Error Identification and Correction	Jun 2, 2024	Mathematical Reasoning	CodeCode Available
Efficient Model-agnostic Alignment via Bayesian Persuasion	May 29, 2024	Code GenerationMathematical Reasoning	—Unverified
Basis Selection: Low-Rank Decomposition of Pretrained Large Language Models for Target Applications	May 24, 2024	Code GenerationLow-rank compression	—Unverified
DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data	May 23, 2024	Automated Theorem ProvingMathematical Reasoning	—Unverified
Can LLMs Solve longer Math Word Problems Better?	May 23, 2024	Data AugmentationMath	CodeCode Available
DOP: Diagnostic-Oriented Prompting for Large Language Models in Mathematical Correction	May 20, 2024	DiagnosticMath	CodeCode Available
A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks	May 16, 2024	Code GenerationDialogue Generation	—Unverified
MathDivide: Improved mathematical reasoning by large language models	May 12, 2024	GSM8KLogical Reasoning	—Unverified
Aligning Tutor Discourse Supporting Rigorous Thinking with Tutee Content Mastery for Predicting Math Achievement	May 10, 2024	MathMathematical Reasoning	—Unverified
LLMs can Find Mathematical Reasoning Mistakes by Pedagogical Chain-of-Thought	May 9, 2024	HallucinationMath	—Unverified
A Careful Examination of Large Language Model Performance on Grade School Arithmetic	May 1, 2024	GSM8KLanguage Modeling	—Unverified
Exploring the Limits of Fine-grained LLM-based Physics Inference via Premise Removal Interventions	Apr 29, 2024	Mathematical Reasoning	—Unverified
PARAMANU-GANITA: Language Model with Mathematical Capabilities	Apr 22, 2024	Domain AdaptationGSM8K	—Unverified
Pre-Calc: Learning to Use the Calculator Improves Numeracy in Language Models	Apr 22, 2024	DecoderMathematical Reasoning	CodeCode Available
Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training	Apr 22, 2024	MathMathematical Reasoning	—Unverified
iTBLS: A Dataset of Interactive Conversations Over Tabular Information	Apr 19, 2024	ArticlesMathematical Reasoning	—Unverified
Enhancing Length Extrapolation in Sequential Models with Pointer-Augmented Neural Memory	Apr 18, 2024	Machine TranslationMathematical Reasoning	—Unverified
Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning in Large Language Models	Apr 17, 2024	FormLanguage Model Evaluation	CodeCode Available
Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition	Apr 10, 2024	Code GenerationMathematical Reasoning	CodeCode Available
SAAS: Solving Ability Amplification Strategy for Enhanced Mathematical Reasoning in Large Language Models	Apr 5, 2024	Mathematical Reasoning	—Unverified
Exploring the Mystery of Influential Data for Mathematical Reasoning	Apr 1, 2024	MathMathematical Reasoning	—Unverified
Planning and Editing What You Retrieve for Enhanced Tool Learning	Mar 30, 2024	Mathematical ReasoningRetrieval	CodeCode Available
Can LLMs Master Math? Investigating Large Language Models on Math Stack Exchange	Mar 30, 2024	MathMathematical Problem-Solving	CodeCode Available
Dual Instruction Tuning with Large Language Models for Mathematical Reasoning	Mar 27, 2024	Domain GeneralizationMathematical Reasoning	—Unverified
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?	Mar 21, 2024	MathMathematical Reasoning	—Unverified
Reinforcement Learning from Reflective Feedback (RLRF): Aligning and Improving LLMs via Fine-Grained Self-Reflection	Mar 21, 2024	Mathematical Reasoning	—Unverified
Instructing Large Language Models to Identify and Ignore Irrelevant Conditions	Mar 19, 2024	MathMathematical Reasoning	CodeCode Available
OpenEval: Benchmarking Chinese LLMs across Capability, Alignment and Safety	Mar 18, 2024	BenchmarkingMathematical Reasoning	—Unverified
Apriori Knowledge in an Era of Computational Opacity: The Role of AI in Mathematical Discovery	Mar 15, 2024	Mathematical Reasoning	—Unverified
FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models	Mar 12, 2024	MathMathematical Reasoning	—Unverified
Prompt Selection and Augmentation for Few Examples Code Generation in Large Language Model and its Application in Robotics Control	Mar 11, 2024	Code GenerationDiversity	—Unverified
Machine learning and information theory concepts towards an AI Mathematician	Mar 7, 2024	Mathematical Reasoning	—Unverified

Show:10 25 50

← PrevPage 14 of 17Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	s1-32B	Acc	56.7	—	Unverified
6	Search-o1	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	o1-preview	Accuracy	0.01	—	Unverified
4	GPT-4o	Accuracy	0.01	—	Unverified
5	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified
6	o1-mini	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified