Math

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 1596 papers

Title	Date	Tasks	Status	Hype	Score
Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks	May 30, 2025	Autonomous DrivingMath	CodeCode Available	1	5
Brilla AI: AI Contestant for the National Science and Maths Quiz	Mar 4, 2024	MathQuestion Answering	CodeCode Available	1	5
Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models Aligned with Human Cognitive Principles	Jun 18, 2024	Arithmetic ReasoningCode Generation	CodeCode Available	1	5
Graph-to-Tree Neural Networks for Learning Structured Input-Output Translation with Applications to Semantic Parsing and Math Word Problem	Apr 7, 2020	DecoderMachine Translation	CodeCode Available	1	5
Ape210K: A Large-Scale and Template-Rich Dataset of Math Word Problems	Sep 24, 2020	DiversityMath	CodeCode Available	1	5
GOLD: Geometry Problem Solver with Natural Language Description	May 1, 2024	Math	CodeCode Available	1	5
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization	Aug 14, 2024	InformativenessInstruction Following	CodeCode Available	1	5
MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports	May 16, 2025	DiagnosticMath	CodeCode Available	1	5
Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations	Oct 31, 2023	GSM8KMath	CodeCode Available	1	5
GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving	Feb 15, 2024	Geometry Problem SolvingMath	CodeCode Available	1	5
GeoQA: A Geometric Question Answering Benchmark Towards Multimodal Numerical Reasoning	May 30, 2021	MathMathematical Reasoning	CodeCode Available	1	5
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models	Apr 8, 2025	MathMultimodal Reasoning	CodeCode Available	1	5
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning	Jan 6, 2025	In-Context LearningMath	CodeCode Available	1	5
Generating Pedagogically Meaningful Visuals for Math Word Problems: A New Benchmark and Analysis of Text-to-Image Models	Jun 4, 2025	Math	CodeCode Available	1	5
Boosting Large Language Models with Socratic Method for Conversational Mathematics Teaching	Jul 24, 2024	Math	CodeCode Available	1	5
Get an A in Math: Progressive Rectification Prompting	Dec 11, 2023	Math	CodeCode Available	1	5
Measuring Conversational Uptake: A Case Study on Student-Teacher Interactions	Jun 7, 2021	MathQuestion Answering	CodeCode Available	1	5
Multiple-Choice Questions are Efficient and Robust LLM Evaluators	May 20, 2024	GSM8KHumanEval	CodeCode Available	1	5
From Zero to Hero: Convincing with Extremely Complicated Math	Apr 1, 2023	Math	CodeCode Available	1	5
From GAN to WGAN	Apr 18, 2019	Generative Adversarial NetworkMath	CodeCode Available	1	5
MathViz-E: A Case-study in Domain-Specialized Tool-Using Agents	Jul 24, 2024	Math	CodeCode Available	1	5
BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing	Apr 2, 2025	3D ReconstructionBenchmarking	CodeCode Available	1	5
An In-depth Look at Gemini's Language Abilities	Dec 18, 2023	Instruction FollowingMath	CodeCode Available	1	5
Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs	Nov 8, 2023	FairnessMath	CodeCode Available	1	5
MATHWELL: Generating Educational Math Word Problems Using Teacher Annotations	Feb 24, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
MathPrompter: Mathematical Reasoning using Large Language Models	Mar 4, 2023	Arithmetic ReasoningMath	CodeCode Available	1	5
Is Bigger and Deeper Always Better? Probing LLaMA Across Scales and Layers	Dec 7, 2023	MathMultiple-choice	CodeCode Available	1	5
Forgotten Polygons: Multimodal Large Language Models are Shape-Blind	Feb 21, 2025	MathMathematical Problem-Solving	CodeCode Available	1	5
Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning	Aug 16, 2024	MathMathematical Reasoning	CodeCode Available	1	5
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving	Feb 27, 2025	GSM8KMath	CodeCode Available	1	5
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes	Oct 22, 2024	GSM8KLanguage Modeling	CodeCode Available	1	5
FormulaNet: A Benchmark Dataset for Mathematical Formula Detection	Aug 29, 2022	Math	CodeCode Available	1	5
Fine-Tuning Large Language Models on Quantum Optimization Problems for Circuit Generation	Apr 15, 2025	MathQuantum Machine Learning	CodeCode Available	1	5
Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations	Dec 14, 2023	Arithmetic ReasoningGSM8K	CodeCode Available	1	5
Math Word Problem Solving with Explicit Numerical Values	Aug 1, 2021	MathMath Word Problem Solving	CodeCode Available	1	5
A Neural Network Solves, Explains, and Generates University Math Problems by Program Synthesis and Few-Shot Learning at Human Level	Dec 31, 2021	Few-Shot LearningLanguage Modelling	CodeCode Available	1	5
MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties Grounded in Math Reasoning Problems	May 23, 2023	Language ModellingLarge Language Model	CodeCode Available	1	5
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start	May 28, 2025	MathMultimodal Reasoning	CodeCode Available	1	5
Expression Syntax Information Bottleneck for Math Word Problems	Oct 24, 2023	Math	CodeCode Available	1	5
Mathematical Capabilities of ChatGPT	Jan 31, 2023	Elementary MathematicsMath	CodeCode Available	1	5
OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling	Jul 13, 2024	BenchmarkingMath	CodeCode Available	1	5
Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT	Apr 3, 2024	BenchmarkingGeneral Knowledge	CodeCode Available	1	5
MathChat: Converse to Tackle Challenging Math Problems with LLM Agents	Jun 2, 2023	Elementary MathematicsMath	CodeCode Available	1	5
MathGloss: Building mathematical glossaries from text	Nov 21, 2023	Math	CodeCode Available	1	5
BEATS: Optimizing LLM Mathematical Capabilities with BackVerify and Adaptive Disambiguate based Efficient Tree Search	Sep 26, 2024	MathMathematical Problem-Solving	CodeCode Available	1	5
FELM: Benchmarking Factuality Evaluation of Large Language Models	Oct 1, 2023	BenchmarkingMath	CodeCode Available	1	5
EXAONE Deep: Reasoning Enhanced Language Models	Mar 16, 2025	Math	CodeCode Available	1	5
Explaining Datasets in Words: Statistical Models with Natural Language Parameters	Sep 13, 2024	ClusteringLanguage Modeling	CodeCode Available	1	5
An Early Evaluation of GPT-4V(ision)	Oct 25, 2023	Math	CodeCode Available	1	5
Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective	Jun 22, 2025	In-Context LearningLarge Language Model	CodeCode Available	1	5

Show:10 25 50

← PrevPage 6 of 32Next →

No leaderboard results yet.