Mathematical Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–675 of 805 papers

Title	Date	Tasks	Status
Applying RLAIF for Code Generation with API-usage in Lightweight LLMs	Jun 28, 2024	Code GenerationHallucination	—Unverified
Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts	Jun 24, 2024	Mathematical ReasoningVisual Question Answering (VQA)	—Unverified
Anomaly Detection of Tabular Data Using LLMs	Jun 24, 2024	Anomaly DetectionLong-Context Understanding	—Unverified
Evaluating Large Vision-and-Language Models on Children's Mathematical Olympiads	Jun 22, 2024	Mathematical Reasoning	—Unverified
Mathador-LM: A Dynamic Benchmark for Mathematical Reasoning on Large Language Models	Jun 18, 2024	Mathematical Reasoning	CodeCode Available
CodeGemma: Open Code Models Based on Gemma	Jun 17, 2024	Code CompletionMathematical Reasoning	—Unverified
Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning	Jun 16, 2024	BenchmarkingMath	—Unverified
MMLU-SR: A Benchmark for Stress-Testing Reasoning Capability of Large Language Models	Jun 15, 2024	Mathematical ReasoningMMLU	—Unverified
ME-Switch: A Memory-Efficient Expert Switching Framework for Large Language Models	Jun 13, 2024	Code Generationdomain classification	—Unverified
Robustness Assessment of Mathematical Reasoning in the Presence of Missing and Contradictory Conditions	Jun 7, 2024	HallucinationMathematical Reasoning	—Unverified
LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs	Jun 7, 2024	Mathematical ReasoningMultiple-choice	CodeCode Available
Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models	Jun 6, 2024	Arithmetic ReasoningCode Generation	—Unverified
Improve Mathematical Reasoning in Language Models by Automated Process Supervision	Jun 5, 2024	GSM8KMath	—Unverified
Assessing the Emergent Symbolic Reasoning Abilities of Llama Large Language Models	Jun 5, 2024	Mathematical Reasoning	—Unverified
NUMCoT: Numerals and Units of Measurement in Chain-of-Thought Reasoning using Large Language Models	Jun 5, 2024	MathMathematical Reasoning	CodeCode Available
Pre-trained Large Language Models Use Fourier Features to Compute Addition	Jun 5, 2024	Mathematical Reasoning	—Unverified
IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models	Jun 5, 2024	Mathematical ReasoningNatural Language Inference	—Unverified
Exploring Mathematical Extrapolation of Large Language Models with Synthetic Data	Jun 4, 2024	Mathematical ReasoningText Generation	—Unverified
Evaluating Mathematical Reasoning of Large Language Models: A Focus on Error Identification and Correction	Jun 2, 2024	Mathematical Reasoning	CodeCode Available
Efficient Model-agnostic Alignment via Bayesian Persuasion	May 29, 2024	Code GenerationMathematical Reasoning	—Unverified
Basis Selection: Low-Rank Decomposition of Pretrained Large Language Models for Target Applications	May 24, 2024	Code GenerationLow-rank compression	—Unverified
DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data	May 23, 2024	Automated Theorem ProvingMathematical Reasoning	—Unverified
Can LLMs Solve longer Math Word Problems Better?	May 23, 2024	Data AugmentationMath	CodeCode Available
DOP: Diagnostic-Oriented Prompting for Large Language Models in Mathematical Correction	May 20, 2024	DiagnosticMath	CodeCode Available
A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks	May 16, 2024	Code GenerationDialogue Generation	—Unverified

Show:10 25 50

← PrevPage 27 of 33Next →

All datasets AIME24 FrontierMath Lila (IID)Lila (OOD)PGPS9K AMC23 GeoQA Math500 UniGeo UniGeo (PRV)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Acc	94.4	—	Unverified
2	DeepSeek-r1	Acc	79.8	—	Unverified
3	Openai-o1	Acc	74.4	—	Unverified
4	Openai-o1-mini	Acc	70	—	Unverified
5	s1-32B	Acc	56.7	—	Unverified
6	Search-o1	Acc	56.7	—	Unverified
7	Openai-o1-preview	Acc	44.6	—	Unverified
8	Qwen2.5-72B-Instruct	Acc	23.3	—	Unverified
9	Claude3.5-Sonnet	Acc	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o3	Accuracy	0.25	—	Unverified
2	Gemini 1.5 Pro (002)	Accuracy	0.02	—	Unverified
3	o1-preview	Accuracy	0.01	—	Unverified
4	GPT-4o	Accuracy	0.01	—	Unverified
5	Claude 3.5 Sonnet	Accuracy	0.01	—	Unverified
6	o1-mini	Accuracy	0.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.6	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.48	—	Unverified
3	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.39	—	Unverified
4	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
5	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.25	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Codex (Few-Shot, 175B)	Accuracy	0.59	—	Unverified
2	Bhāskara-P (Fine-tuned, 2.7B)	Accuracy	0.45	—	Unverified
3	GPT-3 (Few-Shot, 175B)	Accuracy	0.38	—	Unverified
4	Bhāskara-A (Fine-tuned, 2.7B)	Accuracy	0.27	—	Unverified
5	Neo-P (Fine-tuned, 2.7B)	Accuracy	0.24	—	Unverified
6	Neo-A (Fine-tuned, 2.7B)	Accuracy	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Completion accuracy	65.8	—	Unverified
2	PGPSNet	Completion accuracy	62.7	—	Unverified
3	GAPS	Completion accuracy	61.2	—	Unverified
4	Inter-GPS	Completion accuracy	59.8	—	Unverified
5	Geoformer	Completion accuracy	35.6	—	Unverified
6	NGS	Completion accuracy	34.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QWQ-32B-preview	Acc	82.5	—	Unverified
2	Math-Master	Acc	82	—	Unverified
3	Qwen2.5-Math-7B-instruct	Acc	62.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	75.2	—	Unverified
2	GAPS	Accuracy (%)	67.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Search-o1	Acc	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GOLD	Accuracy (%)	98.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GAPS	Accuracy (%)	97.5	—	Unverified