GSM8K

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 439 papers

Title	Date	Tasks	Status
Pheromone-based Learning of Optimal Reasoning Paths	Jan 31, 2025	ARCGSM8K	—Unverified
PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Models	May 22, 2025	GSM8KLarge Language Model	—Unverified
PMSS: Pretrained Matrices Skeleton Selection for LLM Fine-tuning	Sep 25, 2024	GSM8KMath	—Unverified
PortLLM: Personalizing Evolving Large Language Models with Training-Free and Portable Model Patches	Oct 8, 2024	GPUGSM8K	—Unverified
PORT: Preference Optimization on Reasoning Traces	Jun 23, 2024	ARCGSM8K	—Unverified
Position-Aware Depth Decay Decoding (D^3): Boosting Large Language Model Inference Efficiency	Mar 11, 2025	GSM8KLanguage Modeling	—Unverified
Predicting Emergent Capabilities by Finetuning	Nov 25, 2024	CoLAGSM8K	—Unverified
Premise Order Matters in Reasoning with Large Language Models	Feb 14, 2024	GSM8KMathematical Problem-Solving	—Unverified
PREMISE: Scalable and Strategic Prompt Optimization for Efficient Mathematical Reasoning in Large Models	Jun 12, 2025	GSM8KMathematical Reasoning	—Unverified
Prompt Baking	Sep 4, 2024	ARCGSM8K	—Unverified
Prompt Engineering a Prompt Engineer	Nov 9, 2023	counterfactualCounterfactual Reasoning	—Unverified
Prompt-SAW: Leveraging Relation-Aware Graphs for Textual Prompt Compression	Mar 30, 2024	GSM8KRelation	—Unverified
Prompt Selection and Augmentation for Few Examples Code Generation in Large Language Model and its Application in Robotics Control	Mar 11, 2024	Code GenerationDiversity	—Unverified
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning	Jun 20, 2024	GSM8KHeuristic Search	—Unverified
Quasi-random Multi-Sample Inference for Large Language Models	Nov 9, 2024	DiversityGSM8K	—Unverified
Question-Analysis Prompting Improves LLM Performance in Reasoning Tasks	Jul 4, 2024	GSM8KStrategyQA	—Unverified
Question Tokens Deserve More Attention: Enhancing Large Language Models without Training through Step-by-Step Reading and Question Attention Recalibration	Apr 13, 2025	GSM8K	—Unverified
Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement	Sep 18, 2024	GSM8KMath	—Unverified
RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought	May 19, 2023	Arithmetic ReasoningGSM8K	—Unverified
ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning	Oct 24, 2024	GSM8KMath	—Unverified
Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment	Feb 5, 2025	GSM8KHumanEval	—Unverified
Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths	Oct 7, 2024	AttributeGSM8K	—Unverified
Reasoning Robustness of LLMs to Adversarial Typographical Errors	Nov 8, 2024	GSM8KMMLU	—Unverified
Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models	Jan 3, 2025	GSM8KMath	—Unverified
Self-Consistency Preference Optimization	Nov 6, 2024	GSM8KMath	—Unverified
Self-Evaluation Guided Beam Search for Reasoning	May 1, 2023	Arithmetic ReasoningGSM8K	—Unverified
Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models	Mar 4, 2025	GSM8KMath	—Unverified
Self-Imagine: Effective Unimodal Reasoning with Multimodal Models using Self-Imagination	Jan 16, 2024	GSM8KLanguage Modeling	—Unverified
Self-Reasoning Language Models: Unfold Hidden Reasoning Chains with Few Reasoning Catalyst	May 20, 2025	ARCGSM8K	—Unverified
Self-Training Large Language Models for Tool-Use Without Demonstrations	Feb 9, 2025	GSM8KMathematical Reasoning	—Unverified
Hint of Thought prompting: an explainable and zero-shot approach to reasoning tasks with LLMs	May 19, 2023	Arithmetic ReasoningGSM8K	—Unverified
Semantic Exploration with Adaptive Gating for Efficient Problem Solving with Language Models	Jan 10, 2025	ARCDiversity	—Unverified
S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models	May 12, 2025	GSM8KLarge Language Model	—Unverified
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models	Aug 28, 2024	Data AugmentationGSM8K	—Unverified
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On	Jul 11, 2024	GSM8KMath	—Unverified
Slimming Down LLMs Without Losing Their Minds	Jun 12, 2025	Computational EfficiencyGSM8K	—Unverified
SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs	Dec 11, 2024	ARCGSM8K	—Unverified
SOLAR: Scalable Optimization of Large-scale Architecture for Reasoning	Mar 6, 2025	GSM8KMath	—Unverified
Solving math word problems with process- and outcome-based feedback	Nov 25, 2022	Arithmetic ReasoningGSM8K	—Unverified
SpecDec++: Boosting Speculative Decoding via Adaptive Candidate Lengths	May 30, 2024	GSM8KHumanEval	—Unverified
Steering LLM Reasoning Through Bias-Only Adaptation	May 24, 2025	GSM8KMath	—Unverified
Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation	Sep 5, 2024	GSM8K	—Unverified
STUN: Structured-Then-Unstructured Pruning for Scalable MoE Pruning	Sep 10, 2024	GSM8KMixture-of-Experts	—Unverified
Subtle Errors Matter: Preference Learning via Error-injected Self-editing	Oct 9, 2024	GSM8KMath	—Unverified
Supervised Optimism Correction: Be Confident When LLMs Are Sure	Apr 10, 2025	GSM8KMath	—Unverified
Supervisory Prompt Training	Mar 26, 2024	GSM8KSentence	—Unverified
Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency	Apr 4, 2025	BenchmarkingGSM8K	—Unverified
SymBa: Symbolic Backward Chaining for Structured Natural Language Reasoning	Feb 20, 2024	Arithmetic ReasoningGSM8K	—Unverified
Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use	Apr 7, 2025	GSM8KMath	—Unverified
System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts	May 25, 2025	GSM8K	—Unverified

Show:10 25 50

← PrevPage 7 of 9Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Accuracy	98.1	—	Unverified
2	Orange-mini	0-shot MRR	98	—	Unverified