GSM8K

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 439 papers

Title	Date	Tasks	Status
MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs	Feb 26, 2024	GSM8KMath	—Unverified
InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via LLM Fusion	Jan 6, 2025	GSM8KHumanEval	—Unverified
Accelerating Chain-of-Thought Reasoning: When Goal-Gradient Importance Meets Dynamic Skipping	May 13, 2025	Domain GeneralizationGSM8K	—Unverified
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification	Oct 5, 2024	GSM8KMath	—Unverified
Maximizing Confidence Alone Improves Reasoning	May 28, 2025	GSM8KMath	—Unverified
Memory-Efficient LLM Training by Various-Grained Low-Rank Projection of Gradients	May 3, 2025	GSM8KMMLU	—Unverified
Metacognitive Capabilities of LLMs: An Exploration in Mathematical Problem Solving	May 20, 2024	GSM8KMath	—Unverified
Improving Complex Reasoning with Dynamic Prompt Corruption: A soft prompt Optimization Approach	Mar 17, 2025	GSM8KMath	—Unverified
Improve Mathematical Reasoning in Language Models by Automated Process Supervision	Jun 5, 2024	GSM8KMath	—Unverified
MIND: Math Informed syNthetic Dialogues for Pretraining LLMs	Oct 15, 2024	GSM8KMath	—Unverified
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time	May 25, 2024	GSM8KMath	—Unverified
Turning Up the Heat: Min-p Sampling for Creative and Coherent LLM Outputs	Jul 1, 2024	DiversityGSM8K	—Unverified
Mixture of Cache-Conditional Experts for Efficient Mobile Device Inference	Nov 27, 2024	GSM8KLanguage Modeling	—Unverified
Model Unlearning via Sparse Autoencoder Subspace Guided Projections	May 30, 2025	Adversarial Robustnessfeature selection	—Unverified
Hybrid Offline-online Scheduling Method for Large Language Model Inference Optimization	Feb 14, 2025	GSM8KInference Optimization	—Unverified
Guideline Forest: Experience-Induced Multi-Guideline Reasoning with Stepwise Aggregation	Jun 9, 2025	GSM8KHumanEval	—Unverified
Multi-Reference Preference Optimization for Large Language Models	May 26, 2024	GSM8KTruthfulQA	—Unverified
Multi-step Problem Solving Through a Verifier: An Empirical Analysis on Model-induced Process Supervision	Feb 5, 2024	GSM8KMath	—Unverified
GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements	Feb 13, 2024	GSM8KMath	—Unverified
GEMMAS: Graph-based Evaluation Metrics for Multi Agent Systems	Jul 17, 2025	DiversityGSM8K	—Unverified
From Words to Watts: Benchmarking the Energy Costs of Large Language Model Inference	Oct 4, 2023	BenchmarkingGPU	—Unverified
From Good to Great: Improving Math Reasoning with Tool-Augmented Interleaf Prompting	Dec 18, 2023	DiversityGSM8K	—Unverified
From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education	Feb 19, 2025	DiagnosticGSM8K	—Unverified
Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute	Jun 18, 2025	continuous-controlContinuous Control	—Unverified
First-Step Advantage: Importance of Starting Right in Multi-Step Math Reasoning	Nov 14, 2023	GSM8KMath	—Unverified

Show:10 25 50

← PrevPage 10 of 18Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Accuracy	98.1	—	Unverified
2	Orange-mini	0-shot MRR	98	—	Unverified