Math

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 1596 papers

Title	Date	Tasks	Status	Hype
Autonomous Data Selection with Zero-shot Generative Classifiers for Mathematical Texts	Feb 12, 2024	Continual PretrainingGSM8K	CodeCode Available	2
Can AI Assistants Know What They Don't Know?	Jan 24, 2024	MathOpen-Domain Question Answering	CodeCode Available	2
SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in Chinese	Jan 22, 2024	DiversityGSM8K	CodeCode Available	2
Tuning Language Models by Proxy	Jan 16, 2024	Domain AdaptationMath	CodeCode Available	2
SciInstruct: a Self-Reflective Instruction Annotated Dataset for Training Scientific Language Models	Jan 15, 2024	MathMathematical Reasoning	CodeCode Available	2
MathPile: A Billion-Token-Scale Pretraining Corpus for Math	Dec 28, 2023	Language IdentificationMath	CodeCode Available	2
YUAN 2.0: A Large Language Model with Localized Filtering-based Attention	Nov 27, 2023	Code GenerationLanguage Modeling	CodeCode Available	2
System 2 Attention (is something you might need too)	Nov 20, 2023	Math	CodeCode Available	2
Meta Prompting for AI Systems	Nov 20, 2023	Data InteractionGSM8K	CodeCode Available	2
Agent Lumos: Unified and Modular Training for Open-Source Language Agents	Nov 9, 2023	MathQuestion Answering	CodeCode Available	2
An Expression Tree Decoding Strategy for Mathematical Equation Generation	Oct 14, 2023	MathMathematical Reasoning	CodeCode Available	2
MuggleMath: Assessing the Impact of Query and Response Augmentation on Math Reasoning	Oct 9, 2023	Arithmetic ReasoningData Augmentation	CodeCode Available	2
Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models	Oct 6, 2023	Code GenerationDecision Making	CodeCode Available	2
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning	Oct 5, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	2
MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts	Oct 3, 2023	ChatbotImage Captioning	CodeCode Available	2
ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs	Sep 22, 2023	Math	CodeCode Available	2
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models	Sep 21, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	2
MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning	Sep 11, 2023	MathMathematical Reasoning	CodeCode Available	2
GPT Can Solve Mathematical Problems Without a Calculator	Sep 6, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification	Aug 15, 2023	Arithmetic ReasoningMath	CodeCode Available	2
Cumulative Reasoning with Large Language Models	Aug 8, 2023	Decision MakingLogical Reasoning	CodeCode Available	2
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities	Aug 4, 2023	MathMM-Vet	CodeCode Available	2
LeanDojo: Theorem Proving with Retrieval-Augmented Language Models	Jun 27, 2023	Automated Theorem ProvingGPU	CodeCode Available	2
Progressive-Hint Prompting Improves Reasoning in Large Language Models	Apr 19, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	2
AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models	Apr 13, 2023	Decision MakingMath	CodeCode Available	2
Specializing Smaller Language Models towards Multi-Step Reasoning	Jan 30, 2023	MathModel Selection	CodeCode Available	2
A Survey of Deep Learning for Mathematical Reasoning	Dec 20, 2022	Deep LearningMath	CodeCode Available	2
Multi-View Reasoning: Consistent Contrastive Learning for Math Word Problem	Oct 21, 2022	Contrastive LearningMath	CodeCode Available	2
Language Models are Multilingual Chain-of-Thought Reasoners	Oct 6, 2022	GSM8KMath	CodeCode Available	2
PaLM: Scaling Language Modeling with Pathways	Apr 5, 2022	Auto DebuggingCode Generation	CodeCode Available	2
Memorizing Transformers	Mar 16, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
Accelerating Sparse Deep Neural Networks	Apr 16, 2021	GPUMath	CodeCode Available	2
Full Page Handwriting Recognition via Image to Sequence Extraction	Mar 11, 2021	Handwriting RecognitionHandwritten Text Recognition	CodeCode Available	2
Measuring Mathematical Problem Solving With the MATH Dataset	Mar 5, 2021	MathMathematical Problem-Solving	CodeCode Available	2
Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination	Jul 14, 2025	MathMathematical Reasoning	CodeCode Available	1
A Practical Two-Stage Recipe for Mathematical LLMs: Maximizing Accuracy with SFT and Efficiency with Reinforcement Learning	Jul 11, 2025	MathMathematical Reasoning	CodeCode Available	1
The Delta Learning Hypothesis: Preference Tuning on Weak Data can Yield Strong Gains	Jul 8, 2025	MathMMLU	CodeCode Available	1
LLMThinkBench: Towards Basic Math Reasoning and Overthinking in Large Language Models	Jul 5, 2025	BenchmarkingGPU	CodeCode Available	1
Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective	Jun 22, 2025	In-Context LearningLarge Language Model	CodeCode Available	1
OJBench: A Competition Level Code Benchmark For Large Language Models	Jun 19, 2025	Math	CodeCode Available	1
Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team	Jun 17, 2025	Code GenerationGSM8K	CodeCode Available	1
Steering LLM Thinking with Budget Guidance	Jun 16, 2025	Math	CodeCode Available	1
RePO: Replay-Enhanced Policy Optimization	Jun 11, 2025	MathMathematical Reasoning	CodeCode Available	1
Resa: Transparent Reasoning Models via SAEs	Jun 11, 2025	Math	CodeCode Available	1
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs	Jun 11, 2025	Code GenerationDiagnostic	CodeCode Available	1
SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning	Jun 10, 2025	Knowledge DistillationMath	CodeCode Available	1
WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning	Jun 9, 2025	MathMathematical Reasoning	CodeCode Available	1
Generating Pedagogically Meaningful Visuals for Math Word Problems: A New Benchmark and Analysis of Text-to-Image Models	Jun 4, 2025	Math	CodeCode Available	1
STORM-BORN: A Challenging Mathematical Derivations Dataset Curated via a Human-in-the-Loop Multi-Agent Framework	Jun 2, 2025	Math	CodeCode Available	1
Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks	May 30, 2025	Autonomous DrivingMath	CodeCode Available	1

Show:10 25 50

← PrevPage 5 of 32Next →

No leaderboard results yet.