Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 16051–16100 of 17610 papers

Title	Date	Tasks	Status	Hype
Rollenwechsel-English: a large-scale semantic role corpus	May 1, 2018	Language ModelingLanguage Modelling	—Unverified	0
Improving domain-specific SMT for low-resourced languages using data from different domains	May 1, 2018	Domain AdaptationLanguage Modeling	—Unverified	0
Evaluation Phonemic Transcription of Low-Resource Tonal Languages for Language Documentation	May 1, 2018	Acoustic ModellingLanguage Modeling	CodeCode Available	0
A Neural Network Based Model for Loanword Identification in Uyghur	May 1, 2018	Language ModelingLanguage Modelling	—Unverified	0
Data-Driven Pronunciation Modeling of Swiss German Dialectal Speech for Automatic Speech Recognition	May 1, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
A First South African Corpus of Multilingual Code-switched Soap Opera Speech	May 1, 2018	Language Modelling	—Unverified	0
ASR for Documenting Acutely Under-Resourced Indigenous Languages	May 1, 2018	Automatic Speech Recognition (ASR)Language Modeling	—Unverified	0
Incorporating Semantic Attention in Video Description Generation	May 1, 2018	Image CaptioningImage Classification	—Unverified	0
Creating Lithuanian and Latvian Speech Corpora from Inaccurately Annotated Web Data	May 1, 2018	Automatic Speech Recognition (ASR)Language Modeling	—Unverified	0
Creating dialect sub-corpora by clustering: a case in Japanese for an adaptive method	May 1, 2018	ClusteringLanguage Modeling	—Unverified	0
FonBund: A Library for Combining Cross-lingual Phonological Segment Data	May 1, 2018	Language ModelingLanguage Modelling	CodeCode Available	1
A Web Service for Pre-segmenting Very Long Transcribed Speech Recordings	May 1, 2018	ChunkingLanguage Modeling	—Unverified	0
DeModify: A Dataset for Analyzing Contextual Constraints on Modifier Deletion	May 1, 2018	Language ModelingLanguage Modelling	—Unverified	0
Action Verb Corpus	May 1, 2018	Action ClassificationLanguage Acquisition	—Unverified	0
Collecting Code-Switched Data from Social Media	May 1, 2018	Language IdentificationLanguage Modeling	—Unverified	0
Expanding Abbreviations in a Strongly Inflected Language: Are Morphosyntactic Tags Sufficient?	May 1, 2018	Language ModelingLanguage Modelling	—Unverified	0
Towards an Automatic Assessment of Crowdsourced Data for NLU	May 1, 2018	Automatic Speech Recognition (ASR)Language Modeling	—Unverified	0
Revisiting the Task of Scoring Open IE Relations	May 1, 2018	Knowledge Base CompletionLanguage Modeling	—Unverified	0
Text Normalization Infrastructure that Scales to Hundreds of Language Varieties	May 1, 2018	Language IdentificationLanguage Modeling	—Unverified	0
MirasText: An Automatically Generated Text Corpus for Persian	May 1, 2018	Keyword ExtractionLanguage Modeling	—Unverified	0
Automatic Documentation of ICD Codes with Far-Field Speech Recognition	Apr 30, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates	Apr 29, 2018	Language ModelingLanguage Modelling	CodeCode Available	0
Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese	Apr 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Personalized Language Model for Query Auto-Completion	Apr 25, 2018	Language ModelingLanguage Modelling	CodeCode Available	0
End-to-End Multimodal Speech Recognition	Apr 25, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Automatic speech recognition for launch control center communication using recurrent neural networks with data augmentation and custom language model	Apr 24, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Spell Once, Summon Anywhere: A Two-Level Open-Vocabulary Language Model	Apr 23, 2018	Language ModelingLanguage Modelling	CodeCode Available	0
Object Counts! Bringing Explicit Detections Back into Image Captioning	Apr 23, 2018	Image CaptioningLanguage Modeling	—Unverified	0
Lightweight Adaptive Mixture of Neural and N-gram Language Models	Apr 20, 2018	Language ModelingLanguage Modelling	—Unverified	0
Efficient Contextualized Representation: Language Model Pruning for Sequence Labeling	Apr 20, 2018	Language ModelingLanguage Modelling	CodeCode Available	0
Semantic Text Analysis for Detection of Compromised Accounts on Social Networks	Apr 19, 2018	Language ModelingLanguage Modelling	CodeCode Available	0
Personalized neural language models for real-world query auto completion	Apr 17, 2018	DiversityLanguage Modeling	—Unverified	0
Neural Network Language Modeling with Letter-based Features and Importance Sampling	Apr 15, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Large scale distributed neural network training through online distillation	Apr 9, 2018	Language ModelingLanguage Modelling	—Unverified	0
Language Modeling with Generative AdversarialNetworks	Apr 8, 2018	Image GenerationLanguage Modeling	—Unverified	0
An LP-based hyperparameter optimization model for language modeling	Mar 29, 2018	Hyperparameter OptimizationLanguage Modeling	—Unverified	0
Colorless green recurrent networks dream hierarchically	Mar 29, 2018	Language ModelingLanguage Modelling	CodeCode Available	0
Meta-Learning a Dynamical Language Model	Mar 28, 2018	Language ModelingLanguage Modelling	—Unverified	0
The fifth 'CHiME' Speech Separation and Recognition Challenge: Dataset, task and baselines	Mar 28, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Network Traffic Anomaly Detection Using Recurrent Neural Networks	Mar 28, 2018	Anomaly DetectionLanguage Modeling	CodeCode Available	0
Building state-of-the-art distant speech recognition using the CHiME-4 challenge with a setup of speech enhancement baseline	Mar 27, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Fast Parametric Learning with Activation Memorization	Mar 27, 2018	Articlesimage-classification	—Unverified	0
Multi-Modal Data Augmentation for End-to-End ASR	Mar 27, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Automated Evaluation of Out-of-Context Errors	Mar 23, 2018	Binary ClassificationLanguage Modeling	CodeCode Available	0
An Analysis of Neural Language Modeling at Multiple Scales	Mar 22, 2018	GPULanguage Modeling	CodeCode Available	0
Exploring the Naturalness of Buggy Code with Recurrent Neural Networks	Mar 21, 2018	General ClassificationLanguage Modeling	—Unverified	0
Joint Recognition of Handwritten Text and Named Entities with a Neural End-to-end Model	Mar 16, 2018	Language ModelingLanguage Modelling	—Unverified	0
Advancing Acoustic-to-Word CTC Model	Mar 15, 2018	DecoderLanguage Modeling	—Unverified	0
Advancing Connectionist Temporal Classification With Attention Modeling	Mar 15, 2018	ClassificationGeneral Classification	—Unverified	0
Neural Lattice Language Models	Mar 13, 2018	Language ModelingLanguage Modelling	CodeCode Available	0

Show:10 25 50

← PrevPage 322 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified