Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7051–7100 of 17610 papers

Title	Date	Tasks	Status
Fast and Robust Neural Network Joint Models for Statistical Machine Translation	Jun 1, 2014	Language ModellingMachine Translation	—Unverified
Fast and Robust Unsupervised Contextual Biasing for Speech Recognition	May 4, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Fast and Scalable Decoding with Language Model Look-Ahead for Phrase-based Statistical Machine Translation	Jul 1, 2012	Language ModelingLanguage Modelling	—Unverified
Fast Collocation-Based Bayesian HMM Word Alignment	Dec 1, 2016	Language ModelingLanguage Modelling	—Unverified
Fast Contextual Adaptation with Neural Associative Memory for On-Device Personalized Speech Recognition	Oct 5, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Fast-ELECTRA for Efficient Pre-training	Oct 11, 2023	Language ModelingLanguage Modelling	—Unverified
Fast End-to-End Speech Recognition via Non-Autoregressive Models and Cross-Modal Knowledge Transferring from BERT	Feb 15, 2021	DecoderLanguage Modeling	—Unverified
Faster Adaptive Federated Learning	Dec 2, 2022	Federated Learningimage-classification	—Unverified
Faster, Cheaper, Better: Multi-Objective Hyperparameter Optimization for LLM and RAG Systems	Feb 25, 2025	Bayesian OptimizationHyperparameter Optimization	—Unverified
Faster Phrase-Based Decoding by Refining Feature State	Jun 1, 2014	Language ModellingMachine Translation	—Unverified
Fast Gated Neural Domain Adaptation: Language Model as a Case Study	Dec 1, 2016	Domain AdaptationLanguage Modeling	—Unverified
FastGRNN: A Fast, Accurate, Stable and Tiny Kilobyte Sized Gated Recurrent Neural Network	Jan 8, 2019	Action ClassificationLanguage Modelling	—Unverified
FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire	Aug 6, 2020	DecoderLanguage Modelling	—Unverified
Fast Parametric Learning with Activation Memorization	Mar 27, 2018	Articlesimage-classification	—Unverified
Fast Quantum Algorithm for Attention Computation	Jul 16, 2023	Language ModelingLanguage Modelling	—Unverified
Fast-Slow Thinking for Large Vision-Language Model Reasoning	Apr 25, 2025	Language ModelingLanguage Modelling	—Unverified
Fast Syntactic Analysis for Statistical Language Modeling via Substructure Sharing and Uptraining	Jul 1, 2012	Language ModelingLanguage Modelling	—Unverified
Fast Text-Only Domain Adaptation of RNN-Transducer Prediction Network	Apr 22, 2021	Domain AdaptationLanguage Modeling	—Unverified
FastWave: Accelerating Autoregressive Convolutional Neural Networks on FPGA	Feb 9, 2020	Audio GenerationAudio Synthesis	—Unverified
FA Team at the NTCIR-17 UFO Task	Oct 31, 2023	Language ModelingLanguage Modelling	—Unverified
Fault Diagnosis in Power Grids with Large Language Model	Jul 11, 2024	DiagnosticFault Diagnosis	—Unverified
FBK-UPV-UEdin participation in the WMT14 Quality Estimation shared-task	Jun 1, 2014	Language ModellingMachine Translation	—Unverified
Towards Better Few-Shot and Finetuning Performance with Forgetful Causal Language Models	Oct 24, 2022	Language ModelingLanguage Modelling	—Unverified
FD-LLM: Large Language Model for Fault Diagnosis of Machines	Dec 2, 2024	Fault DetectionFault Diagnosis	—Unverified
Feasibility of BERT Embeddings For Domain-Specific Knowledge Mining	Jan 16, 2022	BenchmarkingLanguage Modelling	—Unverified
Feasibility with Language Models for Open-World Compositional Zero-Shot Learning	May 16, 2025	AttributeCompositional Zero-Shot Learning	—Unverified
Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration	Dec 17, 2024	Language ModelingLanguage Modelling	—Unverified
Feature Aggregation in Zero-Shot Cross-Lingual Transfer Using Multilingual BERT	May 17, 2022	Cross-Lingual TransferLanguage Modeling	—Unverified
Feature Alignment and Representation Transfer in Knowledge Distillation for Large Language Models	Apr 18, 2025	image-classificationImage Classification	—Unverified
Feature-based Neural Language Model and Chinese Word Segmentation	Oct 1, 2013	Chinese Word SegmentationChunking	—Unverified
Feature Decay Algorithms for Fast Deployment of Accurate Statistical Machine Translation Systems	Aug 1, 2013	Language ModellingMachine Translation	—Unverified
Feature Engineering vs BERT on Twitter Data	Oct 28, 2022	Feature EngineeringGPU	—Unverified
Feature Extraction for Native Language Identification Using Language Modeling	Sep 1, 2015	Language IdentificationLanguage Modeling	—Unverified
Feature Fusion Effects of Tensor Product Representation on (De)Compositional Network for Caption Generation for Images	Dec 17, 2018	Caption GenerationImage Captioning	—Unverified
Feature-Learning Networks Are Consistent Across Widths At Realistic Scales	May 28, 2023	Language ModelingLanguage Modelling	—Unverified
Feature Optimization for Predicting Readability of Arabic L1 and L2	Jul 1, 2018	Language ModelingLanguage Modelling	—Unverified
FedBaF: Federated Learning Aggregation Biased by a Foundation Model	Oct 24, 2024	Federated LearningLanguage Modeling	—Unverified
FedBoost: A Communication-Efficient Algorithm for Federated Learning	Jan 1, 2020	Density EstimationFederated Learning	—Unverified
Federated Cross-Domain Click-Through Rate Prediction With Large Language Model Augmentation	Mar 21, 2025	Click-Through Rate PredictionContrastive Learning	—Unverified
Federated Evaluation of On-device Personalization	Oct 22, 2019	Language ModelingLanguage Modelling	—Unverified
Integration of Large Language Models and Federated Learning	Jul 18, 2023	Federated LearningLanguage Modelling	—Unverified
Federated Learning for Emoji Prediction in a Mobile Keyboard	Jun 11, 2019	DiversityFederated Learning	—Unverified
Federated Learning of N-gram Language Models	Oct 8, 2019	Federated LearningLanguage Modelling	—Unverified
Federated Learning for Personalized Humor Recognition	Dec 3, 2020	DiversityFederated Learning	—Unverified
Federated Reinforcement Learning with Constraint Heterogeneity	May 6, 2024	Language ModelingLanguage Modelling	—Unverified
FedMKGC: Privacy-Preserving Federated Multilingual Knowledge Graph Completion	Dec 17, 2023	Entity AlignmentFederated Learning	—Unverified
FedTherapist: Mental Health Monitoring with User-Generated Linguistic Expressions on Smartphones via Federated Learning	Oct 25, 2023	Federated LearningLanguage Modeling	—Unverified
FedTLU: Federated Learning with Targeted Layer Updates	Dec 23, 2024	Federated LearningLanguage Modeling	—Unverified
FedTune: A Deep Dive into Efficient Federated Fine-Tuning with Pre-trained Transformers	Nov 15, 2022	Federated LearningLanguage Modelling	—Unverified
Feedforward Sequential Memory Networks: A New Structure to Learn Long-term Dependency	Dec 28, 2015	Language Modellingspeech-recognition	—Unverified

Show:10 25 50

← PrevPage 142 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified