Math

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–700 of 1596 papers

Title	Date	Tasks	Status
Generative Discovery of Partial Differential Equations by Learning from Math Handbooks	May 9, 2025	Computational EfficiencyMath	—Unverified
Scalable LLM Math Reasoning Acceleration with Low-rank Distillation	May 8, 2025	Language ModelingLanguage Modelling	—Unverified
Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers	May 7, 2025	MathReinforcement Learning (RL)	—Unverified
SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning	May 5, 2025	Language ModelingLanguage Modelling	—Unverified
A Survey of Slow Thinking-based Reasoning LLMs using Reinforced Learning and Inference-time Scaling Law	May 5, 2025	MathMedical Diagnosis	—Unverified
Generating Narrated Lecture Videos from Slides with Synchronized Highlights	May 5, 2025	Mathtext-to-speech	—Unverified
LookAlike: Consistent Distractor Generation in Math MCQs	May 3, 2025	Distractor GenerationMath	—Unverified
TutorGym: A Testbed for Evaluating AI Agents as Tutors and Students	May 2, 2025	GSM8KIn-Context Learning	CodeCode Available
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math	Apr 30, 2025	MathReinforcement Learning (RL)	—Unverified
AdaptMI: Adaptive Skill-based In-context Math Instruction for Small Language Models	Apr 30, 2025	In-Context LearningMath	—Unverified
Phi-4-reasoning Technical Report	Apr 30, 2025	MathReinforcement Learning (RL)	—Unverified
LLMs Do Not Have Human-Like Working Memory	Apr 30, 2025	Math	—Unverified
Trace-of-Thought Prompting: Investigating Prompt-Based Knowledge Distillation Through Question Decomposition	Apr 29, 2025	GSM8KKnowledge Distillation	—Unverified
Local Prompt Optimization	Apr 29, 2025	GSM8KMath	—Unverified
Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets	Apr 28, 2025	Data AugmentationDiversity	—Unverified
APE-Bench I: Towards File-level Automated Proof Engineering of Formal Math Libraries	Apr 27, 2025	Automated Theorem ProvingBug fixing	—Unverified
Evaluating Grounded Reasoning by Code-Assisted Large Language Models for Mathematics	Apr 24, 2025	Code GenerationMath	—Unverified
Training Large Language Models to Reason via EM Policy Gradient	Apr 24, 2025	GSM8KMath	—Unverified
SplitReason: Learning To Offload Reasoning	Apr 23, 2025	Language ModelingLanguage Modelling	—Unverified
DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models	Apr 22, 2025	Math	—Unverified
Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators	Apr 21, 2025	Code GenerationInstruction Following	CodeCode Available
LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception	Apr 21, 2025	MathMMLU	—Unverified
OTC: Optimal Tool Calls via Reinforcement Learning	Apr 21, 2025	Mathreinforcement-learning	—Unverified
Enhancing Math Learning in an LMS Using AI-Driven Question Recommendations	Apr 18, 2025	ManagementMath	—Unverified
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?	Apr 18, 2025	MathVisual Reasoning	—Unverified
MathPhys-Guided Coarse-to-Fine Anomaly Synthesis with SQE-Driven Bi-Level Optimization for Anomaly Detection	Apr 17, 2025	Anomaly DetectionData Augmentation	—Unverified
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models	Apr 17, 2025	BenchmarkingMath	—Unverified
In between myth and reality: AI for math -- a case study in category theory	Apr 17, 2025	Math	—Unverified
Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation	Apr 16, 2025	GSM8KMath	—Unverified
Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading	Apr 16, 2025	2kCode Generation	—Unverified
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs	Apr 15, 2025	MathMathematical Reasoning	—Unverified
Heimdall: test-time scaling on the generative verification	Apr 14, 2025	Math	—Unverified
GPT Carry-On: Training Foundation Model for Customization Could Be Simple, Scalable and Affordable	Apr 10, 2025	GPUMath	—Unverified
Supervised Optimism Correction: Be Confident When LLMs Are Sure	Apr 10, 2025	GSM8KMath	—Unverified
MDIT: A Model-free Data Interpolation Method for Diverse Instruction Tuning	Apr 9, 2025	Code GenerationDiversity	—Unverified
Reasoning Models Know When They're Right: Probing Hidden States for Self-Verification	Apr 7, 2025	Logical ReasoningMath	—Unverified
Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use	Apr 7, 2025	GSM8KMath	—Unverified
Retro-Search: Exploring Untaken Paths for Deeper and Efficient Reasoning	Apr 6, 2025	Math	—Unverified
oneDAL Optimization for ARM Scalable Vector Extension: Maximizing Efficiency for High-Performance Data Science	Apr 5, 2025	Math	—Unverified
Online Difficulty Filtering for Reasoning Oriented Reinforcement Learning	Apr 4, 2025	Mathreinforcement-learning	—Unverified
Explain with Visual Keypoints Like a Real Mentor! A Benchmark for Multimodal Solution Explanation	Apr 4, 2025	MathMathematical Reasoning	—Unverified
Cross-Lingual Consistency: A Novel Inference Framework for Advancing Reasoning in Large Language Models	Apr 2, 2025	Math	—Unverified
Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics	Apr 1, 2025	MathMathematical Problem-Solving	—Unverified
How Difficulty-Aware Staged Reinforcement Learning Enhances LLMs' Reasoning Capabilities: A Preliminary Experimental Study	Apr 1, 2025	Code GenerationMath	—Unverified
Hawkeye:Efficient Reasoning with Model Collaboration	Apr 1, 2025	Mathmodel	—Unverified
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning	Apr 1, 2025	MathMathematical Reasoning	—Unverified
Investigating Large Language Models in Diagnosing Students' Cognitive Skills in Math Problem-solving	Apr 1, 2025	Math	—Unverified
An extrapolated and provably convergent algorithm for nonlinear matrix decomposition with the ReLU function	Mar 31, 2025	Data CompressionMath	CodeCode Available
DebFlow: Automating Agent Creation via Agent Debate	Mar 31, 2025	Math	—Unverified
Effective Skill Unlearning through Intervention and Abstention	Mar 27, 2025	General KnowledgeMath	CodeCode Available

Show:10 25 50

← PrevPage 14 of 32Next →

No leaderboard results yet.