GSM8K

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–225 of 439 papers

Title	Date	Tasks	Status
S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models	May 12, 2025	GSM8KLarge Language Model	—Unverified
Elastic Weight Consolidation for Full-Parameter Continual Pre-Training of Gemma2	May 9, 2025	ARCBelebele	—Unverified
Memory-Efficient LLM Training by Various-Grained Low-Rank Projection of Gradients	May 3, 2025	GSM8KMMLU	—Unverified
TutorGym: A Testbed for Evaluating AI Agents as Tutors and Students	May 2, 2025	GSM8KIn-Context Learning	CodeCode Available
Efficient Fine-Tuning of Quantized Models via Adaptive Rank and Bitwidth	May 2, 2025	GSM8KQuantization	—Unverified
Local Prompt Optimization	Apr 29, 2025	GSM8KMath	—Unverified
Trace-of-Thought Prompting: Investigating Prompt-Based Knowledge Distillation Through Question Decomposition	Apr 29, 2025	GSM8KKnowledge Distillation	—Unverified
AutoJudge: Judge Decoding Without Manual Annotation	Apr 28, 2025	GSM8KLarge Language Model	—Unverified
Training Large Language Models to Reason via EM Policy Gradient	Apr 24, 2025	GSM8KMath	—Unverified
Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning	Apr 18, 2025	AllGSM8K	—Unverified
Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation	Apr 16, 2025	GSM8KMath	—Unverified
Question Tokens Deserve More Attention: Enhancing Large Language Models without Training through Step-by-Step Reading and Question Attention Recalibration	Apr 13, 2025	GSM8K	—Unverified
Supervised Optimism Correction: Be Confident When LLMs Are Sure	Apr 10, 2025	GSM8KMath	—Unverified
Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use	Apr 7, 2025	GSM8KMath	—Unverified
Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency	Apr 4, 2025	BenchmarkingGSM8K	—Unverified
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models	Apr 4, 2025	GSM8KMathematical Reasoning	—Unverified
Reasoning Under 1 Billion: Memory-Augmented Reinforcement Learning for Large Language Models	Apr 3, 2025	GSM8KReinforcement Learning (RL)	CodeCode Available
Adaptive Rectification Sampling for Test-Time Compute Scaling	Apr 2, 2025	GSM8KLogical Reasoning	CodeCode Available
Exploring LLM Reasoning Through Controlled Prompt Variations	Apr 2, 2025	GSM8KMathematical Problem-Solving	CodeCode Available
D^2LoRA: Data-Driven LoRA Initialization for Low Resource Tasks	Mar 23, 2025	GSM8K	—Unverified
Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?	Mar 23, 2025	GSM8KMath	CodeCode Available
Tapered Off-Policy REINFORCE: Stable and efficient reinforcement learning for LLMs	Mar 18, 2025	GSM8KMath	—Unverified
Improving Complex Reasoning with Dynamic Prompt Corruption: A soft prompt Optimization Approach	Mar 17, 2025	GSM8KMath	—Unverified
Rule-Guided Feedback: Enhancing Reasoning by Enforcing Rule Adherence in Large Language Models	Mar 14, 2025	Checkmate In OneGSM8K	—Unverified
Position-Aware Depth Decay Decoding (D^3): Boosting Large Language Model Inference Efficiency	Mar 11, 2025	GSM8KLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 9 of 18Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Xolver	Accuracy	98.1	—	Unverified
2	Orange-mini	0-shot MRR	98	—	Unverified