Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 14801–14850 of 17610 papers

Title	Date	Tasks	Status
An Effective Contextual Language Modeling Framework for Speech Summarization with Augmented Features	Jun 1, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
LRG at SemEval-2020 Task 7: Assessing the Ability of BERT and Derivative Models to Perform Short-Edits based Humor Grading	May 31, 2020	Language ModelingLanguage Modelling	—Unverified
Syntactic Structure Distillation Pretraining For Bidirectional Encoders	May 27, 2020	Knowledge DistillationLanguage Modeling	—Unverified
TIME: Text and Image Mutual-Translation Adversarial Networks	May 27, 2020	Generative Adversarial NetworkImage Captioning	—Unverified
Self-Training for Unsupervised Parsing with PRPN	May 27, 2020	Language ModelingLanguage Modelling	—Unverified
Unsupervised Relation Extraction from Language Models using Constrained Cloze Completion	May 27, 2020	Language ModelingLanguage Modelling	—Unverified
qDKT: Question-centric Deep Knowledge Tracing	May 25, 2020	Knowledge TracingLanguage Modeling	—Unverified
When does MAML Work the Best? An Empirical Study on Model-Agnostic Meta-Learning in NLP Applications	May 24, 2020	Few-Shot Text ClassificationLanguage Modeling	—Unverified
Improving Segmentation for Technical Support Problems	May 22, 2020	Language ModelingLanguage Modelling	CodeCode Available
Living Machines: A study of atypical animacy	May 22, 2020	Language ModelingLanguage Modelling	CodeCode Available
Leveraging Text Data Using Hybrid Transformer-LSTM Based End-to-End ASR in Transfer Learning	May 21, 2020	Cross-Lingual TransferDecoder	—Unverified
ASAPP-ASR: Multistream CNN and Self-Attentive SRU for SOTA Speech Recognition	May 21, 2020	Data AugmentationDiversity	—Unverified
Contrastive Learning for Debiased Candidate Generation in Large-Scale Recommender Systems	May 20, 2020	Contrastive LearningFairness	—Unverified
Early Stage LM Integration Using Local and Global Log-Linear Combination	May 20, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Investigation of Large-Margin Softmax in Neural Language Modeling	May 20, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
SciSight: Combining faceted navigation and research group detection for COVID-19 exploratory scientific search	May 20, 2020	Language Modelling	—Unverified
Iterative Pseudo-Labeling for Speech Recognition	May 19, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Improving Proper Noun Recognition in End-to-End ASR By Customization of the MWER Loss Criterion	May 19, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Human Instruction-Following with Deep Reinforcement Learning via Transfer-Learning from Text	May 19, 2020	Deep Reinforcement LearningInstruction Following	—Unverified
Approaches to Improving Recognition of Underrepresented Named Entities in Hybrid ASR Systems	May 18, 2020	Language ModelingLanguage Modelling	—Unverified
The NTNU System at the Interspeech 2020 Non-Native Children's Speech ASR Challenge	May 18, 2020	Data AugmentationDiversity	—Unverified
Yseop at SemEval-2020 Task 5: Cascaded BERT Language Model for Counterfactual Statement Analysis	May 18, 2020	counterfactualGeneral Classification	—Unverified
How much complexity does an RNN architecture need to learn syntax-sensitive dependencies?	May 17, 2020	Language ModelingLanguage Modelling	CodeCode Available
Towards classification parity across cohorts	May 16, 2020	ClassificationClustering	—Unverified
Contextualizing ASR Lattice Rescoring with Hybrid Pointer Network Language Model	May 15, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Challenges in Emotion Style Transfer: An Exploration with a Lexical Substitution Pipeline	May 15, 2020	Language ModellingSentence	CodeCode Available
You Do Not Need More Data: Improving End-To-End Speech Recognition by Text-To-Speech Data Augmentation	May 14, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Multi-agent Communication meets Natural Language: Synergies between Functional and Structural Language Learning	May 14, 2020	Language ModelingLanguage Modelling	—Unverified
Parallel Corpus Filtering via Pre-trained Language Models	May 13, 2020	Language ModelingLanguage Modelling	—Unverified
Towards Hate Speech Detection at Large via Deep Generative Modeling	May 13, 2020	DiversityHate Speech Detection	CodeCode Available
Large Scale Multi-Actor Generative Dialog Modeling	May 13, 2020	Goal-Oriented DialogLanguage Modelling	—Unverified
A Mixture of h-1 Heads is Better than h Heads	May 13, 2020	Language ModelingLanguage Modelling	—Unverified
DiscreTalk: Text-to-Speech as a Machine Translation Problem	May 12, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
AttViz: Online exploration of self-attention for transparent neural language modeling	May 12, 2020	Language ModelingLanguage Modelling	CodeCode Available
Exploiting Syntactic Structure for Better Language Modeling: A Syntactic Distance Approach	May 12, 2020	Language ModelingLanguage Modelling	CodeCode Available
Commonsense Evidence Generation and Injection in Reading Comprehension	May 11, 2020	Language ModelingLanguage Modelling	—Unverified
Neural Polysynthetic Language Modelling	May 11, 2020	Language ModellingLemmatization	—Unverified
Toward Better Storylines with Sentence-Level Language Models	May 11, 2020	Language ModelingLanguage Modelling	—Unverified
How Context Affects Language Models' Factual Predictions	May 10, 2020	Information RetrievalLanguage Modeling	—Unverified
Distilling Knowledge from Pre-trained Language Models via Text Smoothing	May 8, 2020	Knowledge DistillationLanguage Modeling	—Unverified
Quantum Natural Language Processing on Near-Term Quantum Computers	May 8, 2020	Language ModellingQuantum Machine Learning	—Unverified
Temporal Common Sense Acquisition with Minimal Supervision	May 8, 2020	Common Sense ReasoningLanguage Modeling	—Unverified
Learning Architectures from an Extended Search Space for Language Modeling	May 6, 2020	ChunkingLanguage Modeling	—Unverified
Token Manipulation Generative Adversarial Network for Text Generation	May 6, 2020	Conditional Text GenerationDiversity	CodeCode Available
Autoencoding Pixies: Amortised Variational Inference with Graph Convolutions for Functional Distributional Semantics	May 6, 2020	Language ModelingLanguage Modelling	CodeCode Available
Russian Natural Language Generation: Creation of a Language Modelling Dataset and Evaluation with Modern Neural Architectures	May 5, 2020	DiversityLanguage Modeling	CodeCode Available
Distributional Discrepancy: A Metric for Unconditional Text Generation	May 4, 2020	DiversityLanguage Modeling	CodeCode Available
Fast and Robust Unsupervised Contextual Biasing for Speech Recognition	May 4, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Influence Paths for Characterizing Subject-Verb Number Agreement in LSTM Language Models	May 3, 2020	DiagnosticLanguage Modelling	—Unverified
A Comprehensive Survey of Grammar Error Correction	May 2, 2020	Data AugmentationLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 297 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified