Math

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 1596 papers

Title	Date	Tasks	Status	Hype
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning	May 30, 2025	MathMathematical Reasoning	CodeCode Available	1
SiLVR: A Simple Language-based Video Reasoning Framework	May 30, 2025	MathMME	CodeCode Available	1
A*-Thought: Efficient Reasoning via Bidirectional Compression for Low-Resource Settings	May 30, 2025	Math	CodeCode Available	1
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start	May 28, 2025	MathMultimodal Reasoning	CodeCode Available	1
ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge	May 28, 2025	Imitation LearningMath	CodeCode Available	1
REAL-Prover: Retrieval Augmented Lean Prover for Mathematical Reasoning	May 27, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging	May 26, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Value-Guided Search for Efficient Chain-of-Thought Reasoning	May 23, 2025	Math	CodeCode Available	1
RaDeR: Reasoning-aware Dense Retrieval Models	May 23, 2025	MathMathematical Problem-Solving	CodeCode Available	1
Towards Revealing the Effectiveness of Small-Scale Fine-tuning in R1-style Reinforcement Learning	May 23, 2025	MathReinforcement Learning (RL)	CodeCode Available	1
Decoupled Visual Interpretation and Linguistic Reasoning for Math Problem Solving	May 23, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs	May 22, 2025	DiagnosticMachine Unlearning	CodeCode Available	1
ModelingAgent: Bridging LLMs and Mathematical Modeling for Real-World Challenges	May 21, 2025	Mathvalid	CodeCode Available	1
The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning	May 21, 2025	Math	CodeCode Available	1
Training Step-Level Reasoning Verifiers with Formal Verification Tools	May 21, 2025	Formal LogicMath	CodeCode Available	1
TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning	May 20, 2025	MathReinforcement Learning (RL)	CodeCode Available	1
Let's Verify Math Questions Step by Step	May 20, 2025	MathMathematical Reasoning	CodeCode Available	1
Efficient RL Training for Reasoning Models via Length-Aware Optimization	May 18, 2025	Math	CodeCode Available	1
HALO: Hierarchical Autonomous Logic-Oriented Orchestration for Multi-Agent LLM Systems	May 17, 2025	Arithmetic ReasoningCode Generation	CodeCode Available	1
MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports	May 16, 2025	DiagnosticMath	CodeCode Available	1
Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning	May 12, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Rewriting Pre-Training Data Boosts LLM Performance in Math and Code	May 5, 2025	Code GenerationGSM8K	CodeCode Available	1
NeMo-Inspector: A Visualization Tool for LLM Generation Analysis	May 1, 2025	GSM8KMath	CodeCode Available	1
DeepCritic: Deliberate Critique with Large Language Models	May 1, 2025	Math	CodeCode Available	1
Efficient Reasoning for LLMs through Speculative Chain-of-Thought	Apr 27, 2025	GSM8KMath	CodeCode Available	1
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency	Apr 24, 2025	BenchmarkingMath	CodeCode Available	1
Fine-Tuning Large Language Models on Quantum Optimization Problems for Circuit Generation	Apr 15, 2025	MathQuantum Machine Learning	CodeCode Available	1
The Jailbreak Tax: How Useful are Your Jailbreak Outputs?	Apr 14, 2025	Math	CodeCode Available	1
Efficient Process Reward Model Training via Active Learning	Apr 14, 2025	Active LearningMath	CodeCode Available	1
M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models	Apr 14, 2025	MambaMath	CodeCode Available	1
Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression	Apr 10, 2025	MathMMLU	CodeCode Available	1
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models	Apr 8, 2025	MathMultimodal Reasoning	CodeCode Available	1
Large (Vision) Language Models are Unsupervised In-Context Learners	Apr 3, 2025	GSM8KIn-Context Learning	CodeCode Available	1
BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing	Apr 2, 2025	3D ReconstructionBenchmarking	CodeCode Available	1
Entropy-Based Adaptive Weighting for Self-Training	Mar 31, 2025	GSM8KMath	CodeCode Available	1
QuestBench: Can LLMs ask the right question to acquire information in reasoning tasks?	Mar 28, 2025	Logical ReasoningMath	CodeCode Available	1
ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models	Mar 27, 2025	Math	CodeCode Available	1
LogQuant: Log-Distributed 2-Bit Quantization of KV Cache with Superior Accuracy Preservation	Mar 25, 2025	Code CompletionLanguage Modeling	CodeCode Available	1
EXAONE Deep: Reasoning Enhanced Language Models	Mar 16, 2025	Math	CodeCode Available	1
VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search	Mar 13, 2025	Image RetrievalMath	CodeCode Available	1
EvalTree: Profiling Language Model Weaknesses via Hierarchical Capability Trees	Mar 11, 2025	ChatbotLanguage Modeling	CodeCode Available	1
PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models	Mar 4, 2025	GSM8KMath	CodeCode Available	1
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving	Feb 27, 2025	GSM8KMath	CodeCode Available	1
Self-Training Elicits Concise Reasoning in Large Language Models	Feb 27, 2025	GSM8KIn-Context Learning	CodeCode Available	1
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?	Feb 26, 2025	Math	CodeCode Available	1
Forgotten Polygons: Multimodal Large Language Models are Shape-Blind	Feb 21, 2025	MathMathematical Problem-Solving	CodeCode Available	1
How to Get Your LLM to Generate Challenging Problems for Evaluation	Feb 20, 2025	Code CompletionMath	CodeCode Available	1
Reasoning with Reinforced Functional Token Tuning	Feb 19, 2025	Math	CodeCode Available	1
Code-Vision: Evaluating Multimodal LLMs Logic Understanding and Code Generation Capabilities	Feb 17, 2025	Code GenerationHumanEval	CodeCode Available	1
Thinking Preference Optimization	Feb 17, 2025	Math	CodeCode Available	1

Show:10 25 50

← PrevPage 6 of 32Next →

No leaderboard results yet.