Text Compression

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 43 papers

Title	Date	Tasks	Status	Hype
TokAlign: Efficient Vocabulary Adaptation via Token Alignment	Jun 4, 2025	SentenceText Compression	CodeCode Available	1
Beyond Text Compression: Evaluating Tokenizers Across Scales	Jun 3, 2025	Language ModelingLanguage Modelling	—Unverified	0
Measuring Information Distortion in Hierarchical Ultra long Novel Generation:The Optimal Expansion Ratio	May 18, 2025	Text Compression	—Unverified	0
Hypernym Mercury: Token Optimization Through Semantic Field Constriction And Reconstruction From Hypernyms. A New Text Compression Method	May 12, 2025	Semantic CompressionSemantic Similarity	—Unverified	0
Lossless Compression of Large Language Model-Generated Text via Next-Token Prediction	May 7, 2025	Language ModelingLanguage Modelling	—Unverified	0
Text Compression for Efficient Language Generation	Mar 14, 2025	Language ModelingLanguage Modelling	—Unverified	0
Scaling Multi-Document Event Summarization: Evaluating Compression vs. Full-Text Approaches	Feb 10, 2025	Document SummarizationMulti-Document Summarization	CodeCode Available	0
Assessing Human Editing Effort on LLM-Generated Texts via Compression-Based Edit Distance	Dec 23, 2024	Computational EfficiencyText Compression	CodeCode Available	0
L3TC: Leveraging RWKV for Learned Lossless Low-Complexity Text Compression	Dec 21, 2024	Data CompressionText Compression	CodeCode Available	1
An Enhanced Text Compression Approach Using Transformer-based Language Models	Dec 15, 2024	de-enText Compression	—Unverified	0
IntellectSeeker: A Personalized Literature Management System with the Probabilistic Model and Large Language Model	Dec 10, 2024	ArticlesFew-Shot Learning	CodeCode Available	0
Theoretical Analysis of Byte-Pair Encoding	Nov 13, 2024	Language ModelingLanguage Modelling	—Unverified	0
FineZip : Pushing the Limits of Large Language Models for Practical Lossless Text Compression	Sep 25, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
AlphaZip: Neural Network-Enhanced Lossless Text Compression	Sep 23, 2024	BenchmarkingData Compression	CodeCode Available	0
BPE Gets Picky: Efficient Vocabulary Refinement During Tokenizer Training	Sep 6, 2024	Text Compression	CodeCode Available	1
XCompress: LLM assisted Python-based text compression toolkit	Aug 12, 2024	BenchmarkingLanguage Modeling	CodeCode Available	0
Recurrent Context Compression: Efficiently Expanding the Context Window of LLM	Jun 10, 2024	Long-Context UnderstandingQuestion Answering	CodeCode Available	2
Variational Bayesian Methods for a Tree-Structured Stick-Breaking Process Mixture of Gaussians by Application of the Bayes Codes for Context Tree Models	May 1, 2024	Computational EfficiencyText Compression	—Unverified	0
LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression	Mar 19, 2024	GSM8KLanguage Modelling	CodeCode Available	9
Unpacking Tokenization: Evaluating Text Compression and its Correlation with Model Performance	Mar 10, 2024	Language ModelingLanguage Modelling	—Unverified	0
Neural Retrievers are Biased Towards LLM-Generated Content	Oct 31, 2023	Information RetrievalRetrieval	CodeCode Available	1
Semantic Text Compression for Classification	Sep 19, 2023	ClassificationDecoder	—Unverified	0
EntropyRank: Unsupervised Keyphrase Extraction via Side-Information Optimization for Language Model-based Text Compression	Aug 25, 2023	Keyphrase ExtractionLanguage Modeling	—Unverified	0
Approximating Human-Like Few-shot Learning with GPT-based Compression	Aug 14, 2023	Data CompressionFew-Shot Learning	—Unverified	0
Gzip versus bag-of-words for text classification	Jul 27, 2023	Classificationtext-classification	CodeCode Available	0

Show:10 25 50

← PrevPage 1 of 2Next →

No leaderboard results yet.