GSM8K

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 326–350 of 439 papers

Title	Date	Tasks	Status
DNA 1.0 Technical Report	Jan 18, 2025	BelebeleGSM8K	—Unverified
UPAR: A Kantian-Inspired Prompting Framework for Enhancing Large Language Model Capabilities	Sep 30, 2023	Causal JudgmentGSM8K	—Unverified
DiversiGATE: A Comprehensive Framework for Reliable Large Language Models	Jun 22, 2023	Arithmetic ReasoningGSM8K	—Unverified
YODA: Teacher-Student Progressive Learning for Language Models	Jan 28, 2024	GSM8KMath	—Unverified
Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones?	Feb 26, 2025	GSM8KMMLU	—Unverified
SECURA: Sigmoid-Enhanced CUR Decomposition with Uninterrupted Retention and Low-Rank Adaptation in Large Language Models	Feb 25, 2025	Continual LearningGSM8K	—Unverified
Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models	Nov 2, 2024	GSM8KMath	—Unverified
Dialectical Behavior Therapy Approach to LLM Prompting	Oct 10, 2024	GSM8KStrategyQA	—Unverified
Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation	Oct 3, 2024	GSM8KMath	—Unverified
SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models	Aug 16, 2024	GSM8KMMLU	—Unverified
D^2LoRA: Data-Driven LoRA Initialization for Low Resource Tasks	Mar 23, 2025	GSM8K	—Unverified
Self-Consistency Boosts Calibration for Math Reasoning	Mar 14, 2024	GSM8KMath	—Unverified
Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic	Aug 29, 2024	GSM8KLanguage Modeling	—Unverified
Self-Consistency Preference Optimization	Nov 6, 2024	GSM8KMath	—Unverified
Self-Evaluation Guided Beam Search for Reasoning	May 1, 2023	Arithmetic ReasoningGSM8K	—Unverified
Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models	Mar 4, 2025	GSM8KMath	—Unverified
CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks	Sep 13, 2024	ARCCode Generation	—Unverified
Self-Imagine: Effective Unimodal Reasoning with Multimodal Models using Self-Imagination	Jan 16, 2024	GSM8KLanguage Modeling	—Unverified
CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models	May 28, 2025	GSM8K	—Unverified
Self-Reasoning Language Models: Unfold Hidden Reasoning Chains with Few Reasoning Catalyst	May 20, 2025	ARCGSM8K	—Unverified
Cost-Saving LLM Cascades with Early Abstention	Feb 13, 2025	GSM8KMMLU	—Unverified
Self-Training Large Language Models for Tool-Use Without Demonstrations	Feb 9, 2025	GSM8KMathematical Reasoning	—Unverified
Hint of Thought prompting: an explainable and zero-shot approach to reasoning tasks with LLMs	May 19, 2023	Arithmetic ReasoningGSM8K	—Unverified
Semantic Exploration with Adaptive Gating for Efficient Problem Solving with Language Models	Jan 10, 2025	ARCDiversity	—Unverified
CoRE: Enhancing Metacognition with Label-free Self-evaluation in LRMs	Jul 8, 2025	GSM8KMath	—Unverified

Show:10 25 50

← PrevPage 14 of 18Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Accuracy	98.1	—	Unverified
2	Orange-mini	0-shot MRR	98	—	Unverified