SOTAVerified|Agents Browse Leaderboard About

Math

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 326–350 of 1596 papers

Title	Date	Tasks	Status	Hype	Score
FormulaNet: A Benchmark Dataset for Mathematical Formula Detection	Aug 29, 2022	Math	CodeCode Available	1	5
Control LLM: Controlled Evolution for Intelligence Retention in LLM	Jan 19, 2025	MathMathematical Reasoning	CodeCode Available	1	5
Math Word Problem Solving with Explicit Numerical Values	Aug 1, 2021	MathMath Word Problem Solving	CodeCode Available	1	5
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models	Apr 8, 2025	MathMultimodal Reasoning	CodeCode Available	1	5
Explaining Datasets in Words: Statistical Models with Natural Language Parameters	Sep 13, 2024	ClusteringLanguage Modeling	CodeCode Available	1	5
A Tree-Structured Decoder for Image-to-Markup Generation	Jan 1, 2020	DecoderHandwritten Mathmatical Expression Recognition	CodeCode Available	1	5
Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective	Jun 22, 2025	In-Context LearningLarge Language Model	CodeCode Available	1	5
EXAONE Deep: Reasoning Enhanced Language Models	Mar 16, 2025	Math	CodeCode Available	1	5
Expression Syntax Information Bottleneck for Math Word Problems	Oct 24, 2023	Math	CodeCode Available	1	5
MATHWELL: Generating Educational Math Word Problems Using Teacher Annotations	Feb 24, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
Measuring Conversational Uptake: A Case Study on Student-Teacher Interactions	Jun 7, 2021	MathQuestion Answering	CodeCode Available	1	5
AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models	Jul 11, 2024	Language ModellingMath	CodeCode Available	1	5
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving	Feb 27, 2025	GSM8KMath	CodeCode Available	1	5
Mathfish: Evaluating Language Model Math Reasoning via Grounding in Educational Curricula	Aug 8, 2024	GSM8KLanguage Modeling	CodeCode Available	1	5
CoT-based Synthesizer: Enhancing LLM Performance through Answer Synthesis	Jan 3, 2025	Math	CodeCode Available	1	5
A*-Thought: Efficient Reasoning via Bidirectional Compression for Low-Resource Settings	May 30, 2025	Math	CodeCode Available	1	5
Conic10K: A Challenging Math Problem Understanding and Reasoning Dataset	Nov 9, 2023	MathNatural Language Understanding	CodeCode Available	1	5
Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations	Dec 14, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	1	5
Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning	Jun 4, 2023	Math	CodeCode Available	1	5
EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees	Mar 11, 2025	ChatbotLanguage Modeling	CodeCode Available	1	5
FELM: Benchmarking Factuality Evaluation of Large Language Models	Oct 1, 2023	BenchmarkingMath	CodeCode Available	1	5
A Causal Framework to Quantify the Robustness of Mathematical Reasoning with Language Models	Oct 21, 2022	MathMathematical Reasoning	CodeCode Available	1	5
MathViz-E: A Case-study in Domain-Specialized Tool-Using Agents	Jul 24, 2024	Math	CodeCode Available	1	5
MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data	Feb 14, 2024	Automated Theorem ProvingLanguage Modelling	CodeCode Available	1	5
Entropy-Based Adaptive Weighting for Self-Training	Mar 31, 2025	GSM8KMath	CodeCode Available	1	5

Show:10 25 50

← PrevPage 14 of 64Next →

No leaderboard results yet.