Inference Optimization

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 56 papers

Title	Date	Tasks	Status	Hype
Sub-MoE: Efficient Mixture-of-Expert LLMs Compression via Subspace Expert Merging	Jun 29, 2025	Inference OptimizationMixture-of-Experts	CodeCode Available	0
The Foundation Cracks: A Comprehensive Study on Bugs and Testing Practices in LLM Libraries	Jun 14, 2025	Bug fixingInference Optimization	—Unverified	0
Brevity is the soul of sustainability: Characterizing LLM response lengths	Jun 10, 2025	DecoderInference Optimization	CodeCode Available	0
DSMentor: Enhancing Data Science Agents with Curriculum Learning and Online Knowledge Accumulation	May 20, 2025	In-Context LearningInference Optimization	—Unverified	0
Faster MoE LLM Inference for Extremely Large Models	May 6, 2025	Inference OptimizationMixture-of-Experts	—Unverified	0
SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL	Apr 15, 2025	Inference Optimization	CodeCode Available	3
Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints	Apr 15, 2025	GPUInference Optimization	CodeCode Available	4
The 1st Solution for 4th PVUW MeViS Challenge: Unleashing the Potential of Large Multimodal Models for Referring Video Segmentation	Apr 7, 2025	Inference OptimizationReferring Video Object Segmentation	CodeCode Available	5
Energy-Efficient Transformer Inference: Optimization Strategies for Time Series Classification	Feb 23, 2025	ClassificationInference Optimization	—Unverified	0
Hybrid Offline-online Scheduling Method for Large Language Model Inference Optimization	Feb 14, 2025	GSM8KInference Optimization	—Unverified	0
DVFS-Aware DNN Inference on GPUs: Latency Modeling and Performance Analysis	Feb 10, 2025	CPUInference Optimization	—Unverified	0
Hellinger-Kantorovich Gradient Flows: Global Exponential Decay of Entropy Functionals	Jan 28, 2025	Inference Optimization	—Unverified	0
A Survey on Inference Optimization Techniques for Mixture of Experts Models	Dec 18, 2024	Computational EfficiencyDistributed Computing	CodeCode Available	3
FluidML: Fast and Memory Efficient Inference Optimization	Nov 14, 2024	Autonomous VehiclesInference Optimization	—Unverified	0
A Temporal Linear Network for Time Series Forecasting	Oct 28, 2024	Computational EfficiencyInference Optimization	CodeCode Available	0
LLM-Rank: A Graph Theoretical Approach to Pruning Large Language Models	Oct 17, 2024	Inference OptimizationNetwork Pruning	CodeCode Available	0
EdgeRL: Reinforcement Learning-driven Deep Learning Model Inference Optimization at Edge	Oct 16, 2024	Deep LearningInference Optimization	—Unverified	0
CycleBNN: Cyclic Precision Training in Binary Neural Networks	Sep 28, 2024	Inference Optimization	CodeCode Available	2
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning	Sep 2, 2024	Inference OptimizationLanguage Modeling	—Unverified	0
The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities	Aug 23, 2024	Computational EfficiencyInference Optimization	—Unverified	0
An approach to optimize inference of the DIART speaker diarization pipeline	Aug 5, 2024	Inference OptimizationKnowledge Distillation	—Unverified	0
LLaSA: Large Language and E-Commerce Shopping Assistant	Aug 4, 2024	Inference OptimizationSpecificity	CodeCode Available	0
Patched MOA: optimizing inference for diverse software development tasks	Jul 26, 2024	Inference Optimization	CodeCode Available	0
Inference Optimization of Foundation Models on AI Accelerators	Jul 12, 2024	Inference OptimizationModel Compression	—Unverified	0
Inference Performance Optimization for Large Language Models on CPUs	Jul 10, 2024	CPUGPU	CodeCode Available	3

Show:10 25 50

← PrevPage 1 of 3Next →

No leaderboard results yet.