Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 14401–14450 of 17610 papers

Title	Date	Tasks	Status
Joint Extraction of Entity and Relation with Information Redundancy Elimination	Nov 27, 2020	DecoderLanguage Modeling	—Unverified
Automated Coding of Under-Studied Medical Concept Domains: Linking Physical Activity Reports to the International Classification of Functioning, Disability, and Health	Nov 27, 2020	Language ModelingLanguage Modelling	CodeCode Available
Automatic coding of students' writing via Contrastive Representation Learning in the Wasserstein space	Nov 26, 2020	BIG-bench Machine LearningContrastive Learning	—Unverified
Unigram-Normalized Perplexity as a Language Model Performance Measure with Different Vocabulary Sizes	Nov 26, 2020	Language ModelingLanguage Modelling	—Unverified
Language Generation via Combinatorial Constraint Satisfaction: A Tree Search Enhanced Monte-Carlo Approach	Nov 24, 2020	Language ModelingLanguage Modelling	CodeCode Available
Adam^+: A Stochastic Method with Adaptive Variance Reduction	Nov 24, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Does BERT Understand Sentiment? Leveraging Comparisons Between Contextual and Non-Contextual Embeddings to Improve Aspect-Based Sentiment Models	Nov 23, 2020	Aspect-Based Sentiment Analysis (ABSA)Language Modeling	—Unverified
Multi-task Language Modeling for Improving Speech Recognition of Rare Words	Nov 23, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Self-Supervised learning with cross-modal transformers for emotion recognition	Nov 20, 2020	Emotion RecognitionLanguage Modeling	—Unverified
Collaborative Storytelling with Large-scale Neural Language Models	Nov 20, 2020	Language ModelingLanguage Modelling	—Unverified
Data-Informed Global Sparseness in Attention Mechanisms for Deep Neural Networks	Nov 20, 2020	GPULanguage Modeling	CodeCode Available
A Hierarchical Multi-Modal Encoder for Moment Localization in Video Corpus	Nov 18, 2020	Language ModelingLanguage Modelling	—Unverified
Palomino-Ochoa at SemEval-2020 Task 9: Robust System based on Transformer for Code-Mixed Sentiment Classification	Nov 18, 2020	Language ModelingLanguage Modelling	—Unverified
Predictions For Pre-training Language Models	Nov 18, 2020	Language Modelling	—Unverified
Structural and Functional Decomposition for Personality Image Captioning in a Communication Game	Nov 17, 2020	Caption GenerationImage Captioning	—Unverified
MVP-BERT: Redesigning Vocabularies for Chinese BERT and Multi-Vocab Pretraining	Nov 17, 2020	Chinese Word SegmentationLanguage Modeling	—Unverified
Cascade RNN-Transducer: Syllable Based Streaming On-device Mandarin Speech Recognition with a Syllable-to-Character Converter	Nov 17, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
NegatER: Unsupervised Discovery of Negatives in Commonsense Knowledge Bases	Nov 15, 2020	Data AugmentationLanguage Modeling	CodeCode Available
Conditioned Natural Language Generation using only Unconditioned Language Model: An Exploration	Nov 14, 2020	AttributeDiversity	—Unverified
Re-framing Incremental Deep Language Models for Dialogue Processing with Multi-task Learning	Nov 13, 2020	Language ModellingMulti-Task Learning	CodeCode Available
Exploring the Value of Personalized Word Embeddings	Nov 11, 2020	Authorship AttributionLanguage Modeling	—Unverified
E.T.: Entity-Transformers. Coreference augmented Neural Language Model for richer mention representations via Entity-Transformer blocks	Nov 10, 2020	LAMBADALanguage Modeling	—Unverified
Learning Discrete Energy-based Models via Auxiliary-variable Local Exploration	Nov 10, 2020	Language ModelingLanguage Modelling	—Unverified
Positional Artefacts Propagate Through Masked Language Model Embeddings	Nov 9, 2020	Language ModelingLanguage Modelling	—Unverified
Improving Commonsense Question Answering by Graph-based Iterative Retrieval over Multiple Knowledge Sources	Nov 5, 2020	Language ModelingLanguage Modelling	—Unverified
Language Model is All You Need: Natural Language Understanding as Question Answering	Nov 5, 2020	AllLanguage Modeling	—Unverified
A Neuro-Symbolic Method for Solving Differential and Functional Equations	Nov 4, 2020	Language ModelingLanguage Modelling	—Unverified
Indic-Transformers: An Analysis of Transformer Language Models for Indian Languages	Nov 4, 2020	ClassificationGeneral Classification	CodeCode Available
Improving RNN transducer with normalized jointer network	Nov 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Internal Language Model Estimation for Domain-Adaptive End-to-End Speech Recognition	Nov 3, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Sound Natural: Content Rephrasing in Dialog Systems	Nov 3, 2020	Language ModellingParaphrase Generation	CodeCode Available
Modeling Event Salience in Narratives via Barthes' Cardinal Functions	Nov 3, 2020	Language ModelingLanguage Modelling	—Unverified
An Empirical Study of Contextual Data Augmentation for Japanese Zero Anaphora Resolution	Nov 2, 2020	Data AugmentationLanguage Modeling	—Unverified
IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model for Indonesian NLP	Nov 2, 2020	BenchmarkingLanguage Modeling	—Unverified
Improving Variational Autoencoder for Text Modelling with Timestep-Wise Regularisation	Nov 2, 2020	Language ModelingLanguage Modelling	CodeCode Available
A3-108 Machine Translation System for Similar Language Translation Shared Task 2020	Nov 1, 2020	Language ModelingLanguage Modelling	—Unverified
Coding Textual Inputs Boosts the Accuracy of Neural Networks	Nov 1, 2020	Language ModelingLanguage Modelling	CodeCode Available
Biomedical Event Extraction as Multi-turn Question Answering	Nov 1, 2020	Event ExtractionKnowledge Base Population	CodeCode Available
CXP949 at WNUT-2020 Task 2: Extracting Informative COVID-19 Tweets - RoBERTa Ensembles and The Continued Relevance of Handcrafted Features	Nov 1, 2020	ClassificationLanguage Modeling	—Unverified
An Empirical Exploration of Local Ordering Pre-training for Structured Prediction	Nov 1, 2020	Dependency ParsingLanguage Modeling	—Unverified
Explainable Clinical Decision Support from Text	Nov 1, 2020	Language ModelingLanguage Modelling	—Unverified
Adapting Open Domain Fact Extraction and Verification to COVID-FACT through In-Domain Language Modeling	Nov 1, 2020	Fact VerificationLanguage Modeling	—Unverified
Controlling the Imprint of Passivization and Negation in Contextualized Representations	Nov 1, 2020	Language ModelingLanguage Modelling	CodeCode Available
Grammaticality and Language Modelling	Nov 1, 2020	CoLAExperimental Design	—Unverified
HLTRI at W-NUT 2020 Shared Task-3: COVID-19 Event Extraction from Twitter Using Multi-Task Hopfield Pooling	Nov 1, 2020	Event ExtractionLanguage Modeling	—Unverified
A Semi-supervised Approach to Generate the Code-Mixed Text using Pre-trained Encoder and Transfer Learning	Nov 1, 2020	DecoderLanguage Modelling	—Unverified
``I'd rather just go to bed'': Understanding Indirect Answers	Nov 1, 2020	Language ModelingLanguage Modelling	—Unverified
Alibaba’s Submission for the WMT 2020 APE Shared Task: Improving Automatic Post-Editing with Pre-trained Conditional Cross-Lingual BERT	Nov 1, 2020	Automatic Post-EditingBenchmarking	—Unverified
ComplexDataLab at W-NUT 2020 Task 2: Detecting Informative COVID-19 Tweets by Attending over Linked Documents	Nov 1, 2020	Graph ClassificationLanguage Modeling	—Unverified
imec-ETRO-VUB at W-NUT 2020 Shared Task-3: A multilabel BERT-based system for predicting COVID-19 events	Nov 1, 2020	Event ExtractionLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 289 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified