SOTAVerified|Agents Browse Leaderboard About

Math

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 776–800 of 1596 papers

Title	Date	Tasks	Status	Hype
Scaling Test-Time Compute Without Verification or RL is Suboptimal	Feb 17, 2025	MathReinforcement Learning (RL)	—Unverified	0
Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving	Feb 17, 2025	MathMathematical Problem-Solving	—Unverified	0
Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls	Feb 16, 2025	Computational EfficiencyGSM8K	CodeCode Available	0
Graders should cheat: privileged information enables expert-level automated evaluations	Feb 16, 2025	Math	—Unverified	0
1bit-Merging: Dynamic Quantized Merging for Large Language Models	Feb 15, 2025	Code GenerationMath	—Unverified	0
CRANE: Reasoning with constrained LLM generation	Feb 13, 2025	Code GenerationMath	—Unverified	0
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency	Feb 13, 2025	BenchmarkingMath	—Unverified	0
Interactive Sketchpad: A Multimodal Tutoring System for Collaborative, Visual Problem-Solving	Feb 12, 2025	Mathmultimodal interaction	—Unverified	0
Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges	Feb 12, 2025	GSM8KMath	CodeCode Available	0
O1 Embedder: Let Retrievers Think Before Action	Feb 11, 2025	Contrastive LearningMath	—Unverified	0
Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning	Feb 11, 2025	Code GenerationMath	CodeCode Available	0
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations	Feb 10, 2025	BenchmarkingIn-Context Learning	—Unverified	0
Evolving LLMs' Self-Refinement Capability via Iterative Preference Optimization	Feb 8, 2025	GSM8KMath	—Unverified	0
BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation	Feb 6, 2025	In-Context LearningKnowledge Distillation	—Unverified	0
Entropy Adaptive Decoding: Dynamic Model Switching for Efficient Inference	Feb 5, 2025	Computational EfficiencyLanguage Modeling	—Unverified	0
Upweighting Easy Samples in Fine-Tuning Mitigates Forgetting	Feb 5, 2025	GSM8KMath	CodeCode Available	0
Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2	Feb 5, 2025	Language ModelingLanguage Modelling	—Unverified	0
Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment	Feb 5, 2025	GSM8KHumanEval	—Unverified	0
Premise-Augmented Reasoning Chains Improve Error Identification in Math reasoning with LLMs	Feb 4, 2025	MathMathematical Reasoning	—Unverified	0
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model	Feb 4, 2025	Instruction FollowingLanguage Modeling	—Unverified	0
Learning Autonomous Code Integration for Math Language Models	Feb 2, 2025	Math	—Unverified	0
Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?	Feb 2, 2025	MathMMLU	—Unverified	0
Blink of an eye: a simple theory for feature localization in generative models	Feb 2, 2025	Math	—Unverified	0
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning	Jan 31, 2025	Language ModelingLanguage Modelling	—Unverified	0
Spend Wisely: Maximizing Post-Training Gains in Iterative Synthetic Data Boostrapping	Jan 31, 2025	DenoisingImage Denoising	CodeCode Available	0

Show:10 25 50

← PrevPage 32 of 64Next →

No leaderboard results yet.