Math

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 1596 papers

Title	Date	Tasks	Status	Hype
QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation	Jul 17, 2025	MathReinforcement Learning (RL)	—Unverified	0
VAR-MATH: Probing True Mathematical Reasoning in Large Language Models via Symbolic Multi-Instance Benchmarks	Jul 17, 2025	MathMathematical Reasoning	—Unverified	0
Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training	Jul 16, 2025	Code GenerationMath	—Unverified	0
Personalized Exercise Recommendation with Semantically-Grounded Knowledge Tracing	Jul 15, 2025	Knowledge TracingMath	CodeCode Available	0
Temperature and Persona Shape LLM Agent Consensus With Minimal Accuracy Gains in Qualitative Coding	Jul 15, 2025	Math	—Unverified	0
Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination	Jul 14, 2025	MathMathematical Reasoning	CodeCode Available	1
A Practical Two-Stage Recipe for Mathematical LLMs: Maximizing Accuracy with SFT and Efficiency with Reinforcement Learning	Jul 11, 2025	MathMathematical Reasoning	CodeCode Available	1
Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs	Jul 10, 2025	CoLALarge Language Model	—Unverified	0
Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model	Jul 9, 2025	Language ModelingLanguage Modelling	—Unverified	0
The Delta Learning Hypothesis: Preference Tuning on Weak Data can Yield Strong Gains	Jul 8, 2025	MathMMLU	CodeCode Available	1
CoRE: Enhancing Metacognition with Label-free Self-evaluation in LRMs	Jul 8, 2025	GSM8KMath	—Unverified	0
Activation Steering for Chain-of-Thought Compression	Jul 7, 2025	GSM8KMath	CodeCode Available	0
LLMThinkBench: Towards Basic Math Reasoning and Overthinking in Large Language Models	Jul 5, 2025	BenchmarkingGPU	CodeCode Available	1
EvoAgentX: An Automated Framework for Evolving Agentic Workflows	Jul 4, 2025	Code GenerationMath	CodeCode Available	7
Effects of structure on reasoning in instance-level Self-Discover	Jul 4, 2025	Math	CodeCode Available	0
Energy-Based Transformers are Scalable Learners and Thinkers	Jul 2, 2025	DenoisingImage Denoising	VerifiedCommunity Verified — 1 reproduction	5
SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning	Jun 30, 2025	MathMulti-agent Reinforcement Learning	CodeCode Available	2
Do Thinking Tokens Help or Trap? Towards More Efficient Large Reasoning Model	Jun 30, 2025	Math	—Unverified	0
Bridging Offline and Online Reinforcement Learning for LLMs	Jun 26, 2025	Instruction FollowingMath	—Unverified	0
Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test	Jun 26, 2025	Code GenerationLarge Language Model	—Unverified	0
Multi-lingual Functional Evaluation for Large Language Models	Jun 25, 2025	BelebeleInstruction Following	—Unverified	0
When Life Gives You Samples: The Benefits of Scaling up Inference Compute for Multilingual LLMs	Jun 25, 2025	Math	—Unverified	0
AALC: Large Language Model Efficient Reasoning via Adaptive Accuracy-Length Control	Jun 25, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling	Jun 25, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
Causal Decomposition Analysis with Synergistic Interventions: A Triply-Robust Machine Learning Approach to Addressing Multiple Dimensions of Social Disparities	Jun 23, 2025	Math	—Unverified	0
Plan for Speed -- Dilated Scheduling for Masked Diffusion Language Models	Jun 23, 2025	Code CompletionGSM8K	—Unverified	0
ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs	Jun 23, 2025	Math	—Unverified	0
Confucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning	Jun 23, 2025	GPULarge Language Model	CodeCode Available	2
Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective	Jun 22, 2025	In-Context LearningLarge Language Model	CodeCode Available	1
Shrinking the Generation-Verification Gap with Weak Verifiers	Jun 22, 2025	Math	—Unverified	0
Leveraging LLMs to Assess Tutor Moves in Real-Life Dialogues: A Feasibility Study	Jun 20, 2025	Math	—Unverified	0
No Free Lunch: Rethinking Internal Feedback for LLM Reasoning	Jun 20, 2025	Mathreinforcement-learning	—Unverified	0
OJBench: A Competition Level Code Benchmark For Large Language Models	Jun 19, 2025	Math	CodeCode Available	1
AgentGroupChat-V2: Divide-and-Conquer Is What LLM-Based Multi-Agent System Need	Jun 18, 2025	GSM8KHumanEval	CodeCode Available	0
Utility-Driven Speculative Decoding for Mixture-of-Experts	Jun 17, 2025	GPULarge Language Model	—Unverified	0
Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team	Jun 17, 2025	Code GenerationGSM8K	CodeCode Available	1
Essential-Web v1.0: 24T tokens of organized web data	Jun 17, 2025	Math	CodeCode Available	2
SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks	Jun 17, 2025	MathSpatial Reasoning	—Unverified	0
AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy	Jun 16, 2025	MathReinforcement Learning (RL)	—Unverified	0
Direct Reasoning Optimization: LLMs Can Reward And Refine Their Own Reasoning for Open-Ended Tasks	Jun 16, 2025	FormMath	—Unverified	0
Steering LLM Thinking with Budget Guidance	Jun 16, 2025	Math	CodeCode Available	1
Adaptive Guidance Accelerates Reinforcement Learning of Reasoning Models	Jun 16, 2025	Mathreinforcement-learning	—Unverified	0
Weakest Link in the Chain: Security Vulnerabilities in Advanced Reasoning Models	Jun 16, 2025	Math	—Unverified	0
VGR: Visual Grounded Reasoning	Jun 13, 2025	Large Language ModelMath	—Unverified	0
Agent-RLVR: Training Software Engineering Agents via Guidance and Environment Rewards	Jun 13, 2025	MathNavigate	—Unverified	0
TreeRL: LLM Reinforcement Learning with On-Policy Tree Search	Jun 13, 2025	Mathreinforcement-learning	CodeCode Available	2
Learning a Continue-Thinking Token for Enhanced Test-Time Scaling	Jun 12, 2025	GSM8KMath	CodeCode Available	0
Spurious Rewards: Rethinking Training Signals in RLVR	Jun 12, 2025	MathMathematical Reasoning	CodeCode Available	3
ReCUT: Balancing Reasoning Length and Accuracy in LLMs via Stepwise Trails and Preference Optimization	Jun 12, 2025	Math	CodeCode Available	0
RePO: Replay-Enhanced Policy Optimization	Jun 11, 2025	MathMathematical Reasoning	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 32Next →

No leaderboard results yet.