GSM8K

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 439 papers

Title	Date	Tasks	Status
Upweighting Easy Samples in Fine-Tuning Mitigates Forgetting	Feb 5, 2025	GSM8KMath	CodeCode Available
Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment	Feb 5, 2025	GSM8KHumanEval	—Unverified
BARE: Leveraging Base Language Models for Few-Shot Synthetic Data Generation	Feb 3, 2025	DiversityGSM8K	—Unverified
ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference	Feb 1, 2025	GPUGSM8K	—Unverified
Pheromone-based Learning of Optimal Reasoning Paths	Jan 31, 2025	ARCGSM8K	—Unverified
RotateKV: Accurate and Robust 2-Bit KV Cache Quantization for LLMs via Outlier-Aware Adaptive Rotations	Jan 25, 2025	Computational EfficiencyGSM8K	—Unverified
Is your LLM trapped in a Mental Set? Investigative study on how mental sets affect the reasoning capabilities of LLMs	Jan 21, 2025	GSM8KIn-Context Learning	—Unverified
DNA 1.0 Technical Report	Jan 18, 2025	BelebeleGSM8K	—Unverified
ArithmAttack: Evaluating Robustness of LLMs to Noisy Context in Math Problem Solving	Jan 14, 2025	GSM8KMath	CodeCode Available
DiscQuant: A Quantization Method for Neural Networks Inspired by Discrepancy Theory	Jan 11, 2025	GSM8KQuantization	CodeCode Available
Semantic Exploration with Adaptive Gating for Efficient Problem Solving with Language Models	Jan 10, 2025	ARCDiversity	—Unverified
InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via LLM Fusion	Jan 6, 2025	GSM8KHumanEval	—Unverified
Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models	Jan 3, 2025	GSM8KMath	—Unverified
DIVE: Diversified Iterative Self-Improvement	Jan 1, 2025	DiversityGSM8K	CodeCode Available
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs	Dec 30, 2024	GSM8K	—Unverified
LLM2: Let Large Language Models Harness System 2 Reasoning	Dec 29, 2024	GSM8KMathematical Reasoning	CodeCode Available
Towards Intrinsic Self-Correction Enhancement in Monte Carlo Tree Search Boosted Reasoning via Iterative Preference Learning	Dec 23, 2024	Arithmetic ReasoningGSM8K	—Unverified
System-2 Mathematical Reasoning via Enriched Instruction Tuning	Dec 22, 2024	ERPGSM8K	—Unverified
Ask-Before-Detection: Identifying and Mitigating Conformity Bias in LLM-Powered Error Detector for Math Word Problem Solutions	Dec 22, 2024	GSM8KMath	—Unverified
Inference Scaling vs Reasoning: An Empirical Analysis of Compute-Optimal LLM Problem-Solving	Dec 20, 2024	Computational EfficiencyGSM8K	CodeCode Available
Enhancing Knowledge Distillation for LLMs with Response-Priming Prompting	Dec 18, 2024	GSM8KKnowledge Distillation	CodeCode Available
Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree	Dec 17, 2024	GSM8KHumanEval	—Unverified
A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions	Dec 12, 2024	GSM8KKnowledge Graphs	—Unverified
Learning to Reason via Self-Iterative Process Feedback for Small Language Models	Dec 11, 2024	Domain GeneralizationGSM8K	—Unverified
SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs	Dec 11, 2024	ARCGSM8K	—Unverified
Evolutionary Pre-Prompt Optimization for Mathematical Reasoning	Dec 5, 2024	Few-Shot LearningGSM8K	—Unverified
Training-Free Mitigation of Language Reasoning Degradation After Multimodal Instruction Tuning	Dec 4, 2024	GSM8KLanguage Modeling	—Unverified
MALT: Improving Reasoning with Multi-Agent LLM Training	Dec 2, 2024	Common Sense ReasoningGSM8K	—Unverified
Mixture of Cache-Conditional Experts for Efficient Mobile Device Inference	Nov 27, 2024	GSM8KLanguage Modeling	—Unverified
Unraveling Arithmetic in Large Language Models: The Role of Algebraic Structures	Nov 25, 2024	GSM8KMath	—Unverified
Predicting Emergent Capabilities by Finetuning	Nov 25, 2024	CoLAGSM8K	—Unverified
Patience Is The Key to Large Language Model Reasoning	Nov 20, 2024	GSM8KLanguage Modeling	—Unverified
Adaptive Decoding via Latent Preference Optimization	Nov 14, 2024	GSM8KInstruction Following	—Unverified
Dynamic Subset Tuning: Expanding the Operational Range of Parameter-Efficient Training for Large Language Models	Nov 13, 2024	GSM8K	—Unverified
Quasi-random Multi-Sample Inference for Large Language Models	Nov 9, 2024	DiversityGSM8K	—Unverified
Reasoning Robustness of LLMs to Adversarial Typographical Errors	Nov 8, 2024	GSM8KMMLU	—Unverified
Kwai-STaR: Transform LLMs into State-Transition Reasoners	Nov 7, 2024	GSM8KMathematical Problem-Solving	—Unverified
Self-Consistency Preference Optimization	Nov 6, 2024	GSM8KMath	—Unverified
Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models	Nov 2, 2024	GSM8KMath	—Unverified
Rethinking Data Synthesis: A Teacher Model Training Recipe with Interpretation	Oct 27, 2024	GSM8KLanguage Modeling	—Unverified
ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning	Oct 24, 2024	GSM8KMath	—Unverified
Adaptive Dense Reward: Understanding the Gap Between Action and Reward Space in Alignment	Oct 23, 2024	GSM8KHumanEval	—Unverified
Optimizing Chain-of-Thought Reasoning: Tackling Arranging Bottleneck via Plan Augmentation	Oct 22, 2024	GSM8KMath	—Unverified
SMART: Self-learning Meta-strategy Agent for Reasoning Tasks	Oct 21, 2024	GSM8KSelf-Learning	CodeCode Available
On Designing Effective RL Reward at Training Time for LLM Reasoning	Oct 19, 2024	GSM8KMath	—Unverified
TreeBoN: Enhancing Inference-Time Alignment with Speculative Tree-Search and Best-of-N Sampling	Oct 18, 2024	Computational EfficiencyGSM8K	—Unverified
SBI-RAG: Enhancing Math Word Problem Solving for Students through Schema-Based Instruction and Retrieval-Augmented Generation	Oct 17, 2024	GSM8KLanguage Modeling	CodeCode Available
Not All Votes Count! Programs as Verifiers Improve Self-Consistency of Language Models for Math Reasoning	Oct 16, 2024	AllGSM8K	CodeCode Available
MIND: Math Informed syNthetic Dialogues for Pretraining LLMs	Oct 15, 2024	GSM8KMath	—Unverified
How to Leverage Demonstration Data in Alignment for Large Language Model? A Self-Imitation Learning Perspective	Oct 14, 2024	Density Ratio EstimationGSM8K	CodeCode Available

Show:10 25 50

← PrevPage 6 of 9Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Accuracy	98.1	—	Unverified
2	Orange-mini	0-shot MRR	98	—	Unverified