Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8551–8600 of 17610 papers

Title	Date	Tasks	Status
ED-SAM: An Efficient Diffusion Sampling Approach to Domain Generalization in Vision-Language Foundation Models	Jun 3, 2024	Data AugmentationDomain Generalization	—Unverified
會議語音辨識使用語者資訊之語言模型調適技術 (On the Use of Speaker-Aware Language Model Adaptation Techniques for Meeting Speech Recognition ) [In Chinese]	Oct 1, 2018	Automatic Speech Recognition (ASR)Language Modeling	—Unverified
EEG2TEXT-CN: An Exploratory Study of Open-Vocabulary Chinese Text-EEG Alignment via Large Language Model and Contrastive Learning on ChineseEEG	Jun 1, 2025	Contrastive LearningDecoder	—Unverified
EEG-Language Modeling for Pathology Detection	Sep 2, 2024	Contrastive LearningEEG	—Unverified
EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model	Aug 21, 2024	Computational EfficiencyLanguage Modeling	—Unverified
Effect and Analysis of Large-scale Language Model Rescoring on Competitive ASR Systems	Apr 1, 2022	Language ModelingLanguage Modelling	—Unverified
Effective Black-Box Multi-Faceted Attacks Breach Vision Large Language Model Guardrails	Feb 9, 2025	Language ModelingLanguage Modelling	—Unverified
Effective Decoder Masking for Transformer Based End-to-End Speech Recognition	Oct 27, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Effective faking of verbal deception detection with target-aligned adversarial attacks	Jan 10, 2025	Adversarial AttackDeception Detection	—Unverified
Effective FAQ Retrieval and Question Matching With Unsupervised Knowledge Injection	Oct 27, 2020	Language ModellingRetrieval	—Unverified
Effective Fine-Tuning Methods for Cross-lingual Adaptation	Nov 1, 2021	Contrastive LearningLanguage Modeling	—Unverified
Effective internal language model training and fusion for factorized transducer model	Apr 2, 2024	Language ModelingLanguage Modelling	—Unverified
Effective Large Language Model Adaptation for Improved Grounding and Citation Generation	Nov 16, 2023	Language ModelingLanguage Modelling	—Unverified
Effective Large Language Model Debugging with Best-first Tree Search	Jul 26, 2024	Code GenerationLanguage Modeling	—Unverified
Effectively Prompting Small-sized Language Models for Cross-lingual Tasks via Winning Tickets	Apr 1, 2024	Language ModelingLanguage Modelling	—Unverified
Effectiveness of Character Language Model for Vietnamese Named Entity Recognition	Dec 1, 2018	Language ModelingLanguage Modelling	—Unverified
Effectiveness of Deep Networks in NLP using BiDAF as an example architecture	Aug 31, 2021	Language ModelingLanguage Modelling	—Unverified
Effective SAM Combination for Open-Vocabulary Semantic Segmentation	Nov 22, 2024	DecoderLanguage Modeling	—Unverified
Effective Selection of Translation Model Training Data	Jun 1, 2014	Language ModellingMachine Translation	—Unverified
Effective Sentence Scoring Method using Bidirectional Language Model for Speech Recognition	May 16, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Effective Text Adaptation for LLM-based ASR through Soft Prompt Fine-Tuning	Dec 9, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Effect of Language and Error Models on Efficiency of Finite-State Spell-Checking and Correction	Jul 1, 2012	Language Modelling	—Unverified
Effect of Selection Format on LLM Performance	Mar 10, 2025	Language ModelingLanguage Modelling	—Unverified
Effects of Communicative Pressures on Novice L2 Learners' Use of Optional Formal Devices	Jun 1, 2016	Language ModelingLanguage Modelling	—Unverified
Effects of Number of Filters of Convolutional Layers on Speech Recognition Model Accuracy	Feb 3, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Effects of Stop Words Elimination for Arabic Information Retrieval: A Comparative Study	Feb 7, 2017	Information RetrievalLanguage Modelling	—Unverified
Efficient and Comprehensive Feature Extraction in Large Vision-Language Model for Pathology Analysis	Dec 12, 2024	DiagnosticLanguage Modeling	—Unverified
Efficient and Context-Aware Label Propagation for Zero-/Few-Shot Training-Free Adaptation of Vision-Language Model	Dec 24, 2024	Language ModelingLanguage Modelling	—Unverified
Efficient and Direct Duplex Modeling for Speech-to-Speech Language Model	May 21, 2025	Language ModelingLanguage Modelling	—Unverified
Efficient Heterogeneous Large Language Model Decoding with Model-Attention Disaggregation	May 3, 2024	Language ModelingLanguage Modelling	—Unverified
Efficient and effective training of language and graph neural network models	Jun 22, 2022	Edge ClassificationGraph Neural Network	—Unverified
Efficient and Interpretable Neural Models for Entity Tracking	Aug 30, 2022	Coreference ResolutionLanguage Modeling	—Unverified
Efficient and Reliable Overlay Networks for Decentralized Federated Learning	Dec 12, 2021	Federated LearningGeneralization Bounds	—Unverified
Efficient Avoidance of Vulnerabilities in Auto-completed Smart Contract Code Using Vulnerability-constrained Decoding	Sep 18, 2023	Code GenerationLanguage Modelling	—Unverified
EfficientCLIP: Efficient Cross-Modal Pre-training by Ensemble Confident Learning and Language Modeling	Sep 10, 2021	Cross-Modal RetrievalLanguage Modeling	—Unverified
Efficient Contextual Representation Learning Without Softmax Layer	Feb 28, 2019	Dimensionality ReductionLanguage Modeling	—Unverified
Efficient Contextual Representation Learning With Continuous Outputs	Mar 1, 2019	Language ModelingLanguage Modelling	—Unverified
Efficient Distributed Retrieval-Augmented Generation for Enhancing Language Model Performance	Apr 15, 2025	Language ModelingLanguage Modelling	—Unverified
Efficient Domain Adaptation of Language Models via Adaptive Tokenization	Sep 15, 2021	Domain AdaptationLanguage Modelling	—Unverified
Efficient Domain-adaptive Continual Pretraining for the Process Industry in the German Language	Apr 28, 2025	Continual PretrainingGPU	—Unverified
Efficient Dynamic WFST Decoding for Personalized Language Models	Oct 23, 2019	DecoderLanguage Modeling	—Unverified
Efficient Fine-Tuning of Large Language Models for Automated Medical Documentation	Sep 14, 2024	Language ModelingLanguage Modelling	—Unverified
Self-Supervised Contrastive Learning for Code Retrieval and Summarization via Semantic-Preserving Transformations	Sep 6, 2020	ClusteringCode Summarization	—Unverified
Efficient GPT Model Pre-training using Tensor Train Matrix Representation	Jun 5, 2023	Language ModellingText Summarization	—Unverified
Efficient Hierarchical Domain Adaptation for Pretrained Language Models	Jan 16, 2022	Domain AdaptationLanguage Modeling	—Unverified
Efficient Human-AI Coordination via Preparatory Language-based Convention	Nov 1, 2023	Language ModellingLarge Language Model	—Unverified
Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning	Apr 15, 2025	Knowledge DistillationLanguage Modeling	—Unverified
Efficient Knowledge Distillation via Curriculum Extraction	Mar 21, 2025	Knowledge DistillationLanguage Modeling	—Unverified
Efficient Language Model Architectures for Differentially Private Federated Learning	Mar 12, 2024	Computational EfficiencyFederated Learning	—Unverified
Efficient Language Modeling with Automatic Relevance Determination in Recurrent Neural Networks	Aug 1, 2019	DecoderLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 172 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified