Math

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–750 of 1596 papers

Title	Date	Tasks	Status
Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad	Mar 27, 2025	MathMathematical Reasoning	—Unverified
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models	Mar 27, 2025	Data VisualizationMath	CodeCode Available
Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking	Mar 25, 2025	MathReinforcement Learning (RL)	—Unverified
Scaling Evaluation-time Compute with Reasoning Models as Process Evaluators	Mar 25, 2025	Math	—Unverified
1.4 Million Open-Source Distilled Reasoning Dataset to Empower Large Language Model Training	Mar 25, 2025	Language ModelingLanguage Modelling	—Unverified
Gemma 3 Technical Report	Mar 25, 2025	Instruction FollowingMath	—Unverified
Overcoming Vocabulary Mismatch: Vocabulary-agnostic Teacher Guided Language Modeling	Mar 24, 2025	Continual PretrainingLanguage Modeling	—Unverified
Teaching LLMs for Step-Level Automatic Math Correction via Reinforcement Learning	Mar 24, 2025	Language ModelingLanguage Modelling	—Unverified
Activation Functions Considered Harmful: Recovering Neural Network Weights through Controlled Channels	Mar 24, 2025	Math	—Unverified
Long Is More Important Than Difficult for Training Reasoning Models	Mar 23, 2025	Math	—Unverified
Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?	Mar 23, 2025	GSM8KMath	CodeCode Available
MathAgent: Leveraging a Mixture-of-Math-Agent Framework for Real-World Multimodal Mathematical Error Detection	Mar 23, 2025	MathMathematical Problem-Solving	—Unverified
ChatBench: From Static Benchmarks to Human-AI Evaluation	Mar 22, 2025	MathMMLU	CodeCode Available
Exploring the Hidden Reasoning Process of Large Language Models by Misleading Them	Mar 20, 2025	MathMemorization	—Unverified
BurTorch: Revisiting Training from First Principles by Coupling Autodiff, Math Optimization, and Systems	Mar 18, 2025	CPUMath	—Unverified
Tapered Off-Policy REINFORCE: Stable and efficient reinforcement learning for LLMs	Mar 18, 2025	GSM8KMath	—Unverified
Pensez: Less Data, Better Reasoning -- Rethinking French LLM	Mar 17, 2025	Large Language ModelMath	—Unverified
Improving Complex Reasoning with Dynamic Prompt Corruption: A soft prompt Optimization Approach	Mar 17, 2025	GSM8KMath	—Unverified
SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?	Mar 16, 2025	Board GamesCard Games	—Unverified
StepMathAgent: A Step-Wise Agent for Evaluating Mathematical Processes through Tree-of-Error	Mar 13, 2025	Math	CodeCode Available
The Impact of Item-Writing Flaws on Difficulty and Discrimination in Item Response Theory	Mar 13, 2025	MathMultiple-choice	—Unverified
Conformal Prediction Sets for Deep Generative Models via Reduction to Conformal Regression	Mar 13, 2025	Code GenerationConformal Prediction	—Unverified
Chat-TS: Enhancing Multi-Modal Reasoning Over Time-Series and Natural Language Data	Mar 13, 2025	Large Language ModelMath	—Unverified
Understanding the Logical Capabilities of Large Language Models via Out-of-Context Representation Learning	Mar 13, 2025	In-Context LearningMath	—Unverified
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning	Mar 10, 2025	MathMeta Reinforcement Learning	—Unverified
From Text to Visuals: Using LLMs to Generate Math Diagrams with Vector Graphics	Mar 10, 2025	MathQuestion Answering	—Unverified
Decoding the Black Box: Integrating Moral Imagination with Technical AI Governance	Mar 9, 2025	EthicsMath	—Unverified
InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models	Mar 9, 2025	Computational EfficiencyMath	—Unverified
Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning	Mar 7, 2025	GPUMath	—Unverified
START: Self-taught Reasoner with Tools	Mar 6, 2025	MathSelf-Learning	—Unverified
Better Process Supervision with Bi-directional Rewarding Signals	Mar 6, 2025	Language ModelingLanguage Modelling	—Unverified
Benchmarking Reasoning Robustness in Large Language Models	Mar 6, 2025	BenchmarkingMath	—Unverified
SOLAR: Scalable Optimization of Large-scale Architecture for Reasoning	Mar 6, 2025	GSM8KMath	—Unverified
HelpSteer3: Human-Annotated Feedback and Edit Data to Empower Inference-Time Scaling in Open-Ended General-Domain Tasks	Mar 6, 2025	ChatbotLogical Reasoning	—Unverified
Compositional Causal Reasoning Evaluation in Language Models	Mar 6, 2025	Math	—Unverified
Performance Comparison of Large Language Models on Advanced Calculus Problems	Mar 5, 2025	MathMathematical Problem-Solving	—Unverified
LEWIS (LayEr WIse Sparsity) -- A Training Free Guided Model Merging Approach	Mar 5, 2025	Instruction FollowingMath	—Unverified
FANS -- Formal Answer Selection for Natural Language Math Reasoning Using Lean4	Mar 5, 2025	Answer SelectionMath	—Unverified
Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models	Mar 4, 2025	GSM8KMath	—Unverified
When an LLM is apprehensive about its answers -- and when its uncertainty is justified	Mar 3, 2025	MathMMLU	CodeCode Available
What's Behind PPO's Collapse in Long-CoT? Value Optimization Holds the Secret	Mar 3, 2025	MathReinforcement Learning (RL)	—Unverified
Cats Confuse Reasoning LLM: Query Agnostic Adversarial Triggers for Reasoning Models	Mar 3, 2025	Math	—Unverified
MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts	Feb 28, 2025	MathMathematical Reasoning	—Unverified
MAMUT: A Novel Framework for Modifying Mathematical Formulas for the Generation of Specialized Datasets for Language Model Training	Feb 28, 2025	Language ModelingLanguage Modelling	CodeCode Available
Med-RLVR: Emerging Medical Reasoning from a 3B base model via reinforcement Learning	Feb 27, 2025	MathMedical Question Answering	—Unverified
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning	Feb 25, 2025	MathMathematical Reasoning	—Unverified
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution	Feb 25, 2025	MathReinforcement Learning (RL)	—Unverified
Reasoning with Latent Thoughts: On the Power of Looped Transformers	Feb 24, 2025	Language ModelingLanguage Modelling	—Unverified
Learning Decentralized Swarms Using Rotation Equivariant Graph Neural Networks	Feb 24, 2025	Graph Neural NetworkMath	CodeCode Available
Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning	Feb 24, 2025	MathMathematical Reasoning	CodeCode Available

Show:10 25 50

← PrevPage 15 of 32Next →

No leaderboard results yet.