SOTAVerified|Agents Browse Leaderboard About

Math

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 926–950 of 1596 papers

Title	Date	Tasks	Status	Hype
Beyond Captioning: Task-Specific Prompting for Improved VLM Performance in Mathematical Reasoning	Oct 8, 2024	Image RetrievalMath	—Unverified	0
Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking	Mar 25, 2025	MathReinforcement Learning (RL)	—Unverified	0
Kappa Learning: A New Method for Measuring Similarity Between Educational Items Using Performance Data	Dec 20, 2018	ClusteringMath	—Unverified	0
Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning	Mar 4, 2024	GSM8KMath	—Unverified	0
Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities	May 21, 2025	MathReinforcement Learning (RL)	—Unverified	0
Knowledge or Reasoning? A Close Look at How LLMs Think Across Domains	Jun 2, 2025	MathReinforcement Learning (RL)	—Unverified	0
Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever	Jun 19, 2024	MathSemantic Similarity	—Unverified	0
Knowledge Tagging with Large Language Model based Multi-Agent System	Sep 12, 2024	Language ModelingLanguage Modelling	—Unverified	0
Kokoyi: Executable LaTeX for End-to-end Deep Learning	Sep 29, 2021	Deep LearningMath	—Unverified	0
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models	Sep 29, 2023	Code GenerationMath	—Unverified	0
Better Process Supervision with Bi-directional Rewarding Signals	Mar 6, 2025	Language ModelingLanguage Modelling	—Unverified	0
Adapting the LodView RDF Browser for Navigation over the Multilingual Linguistic Linked Open Data Cloud	Aug 28, 2022	Math	—Unverified	0
Benchmarking Reasoning Robustness in Large Language Models	Mar 6, 2025	BenchmarkingMath	—Unverified	0
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models	Apr 17, 2025	BenchmarkingMath	—Unverified	0
Tighter 'uniform bounds for Black-Scholes implied volatility' and the applications to root-finding	Feb 17, 2023	Math	—Unverified	0
Language Models with Conformal Factuality Guarantees	Feb 15, 2024	Conformal PredictionLanguage Modeling	—Unverified	0
TinyGSM: achieving >80% on GSM8k with small language models	Dec 14, 2023	Arithmetic ReasoningGSM8K	—Unverified	0
YODA: Teacher-Student Progressive Learning for Language Models	Jan 28, 2024	GSM8KMath	—Unverified	0
Large Language Models Are Struggle to Cope with Unreasonability in Math Problems	Mar 28, 2024	Math	—Unverified	0
Large Language Models as Analogical Reasoners	Oct 3, 2023	Code GenerationGSM8K	—Unverified	0
1bit-Merging: Dynamic Quantized Merging for Large Language Models	Feb 15, 2025	Code GenerationMath	—Unverified	0
Large Language Models Can Self-Correct with Key Condition Verification	May 23, 2024	Arithmetic ReasoningMath	—Unverified	0
Large Language Models for Mathematical Reasoning: Progresses and Challenges	Jan 31, 2024	DiversityMath	—Unverified	0
Large Language Models Might Not Care What You Are Saying: Prompt Format Beats Descriptions	Aug 16, 2024	DescriptiveHallucination	—Unverified	0
Large Language Models' Understanding of Math: Source Criticism and Extrapolation	Nov 12, 2023	Automated Theorem ProvingMath	—Unverified	0

Show:10 25 50

← PrevPage 38 of 64Next →

No leaderboard results yet.