Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 14101–14150 of 17610 papers

Title	Date	Tasks	Status
Does She Wink or Does She Nod? A Challenging Benchmark for Evaluating Word Understanding of Language Models	Apr 1, 2021	Language ModelingLanguage Modelling	—Unverified
BERTić - The Transformer Language Model for Bosnian, Croatian, Montenegrin and Serbian	Apr 1, 2021	Commonsense Causal ReasoningLanguage Modeling	—Unverified
Detecting over/under-translation errors for determining adequacy in human translations	Apr 1, 2021	Language ModelingLanguage Modelling	—Unverified
Exploiting Cloze-Questions for Few-Shot Text Classification and Natural Language Inference	Apr 1, 2021	Few-Shot Text ClassificationLanguage Modeling	—Unverified
Emotional RobBERT and Insensitive BERTje: Combining Transformers and Affect Lexica for Dutch Emotion Detection	Apr 1, 2021	Language ModelingLanguage Modelling	—Unverified
Few-shot learning through contextual data augmentation	Mar 31, 2021	Data AugmentationFew-Shot Learning	CodeCode Available
Multi-Encoder Learning and Stream Fusion for Transformer-Based End-to-End Automatic Speech Recognition	Mar 31, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Self-supervised Image-text Pre-training With Mixed Data In Chest X-rays	Mar 30, 2021	Language ModelingLanguage Modelling	—Unverified
AfriKI: Machine-in-the-Loop Afrikaans Poetry Generation	Mar 30, 2021	Language ModelingLanguage Modelling	—Unverified
XRJL-HKUST at SemEval-2021 Task 4: WordNet-Enhanced Dual Multi-head Co-Attention for Reading Comprehension of Abstract Meaning	Mar 30, 2021	Language ModelingLanguage Modelling	CodeCode Available
Retraining DistilBERT for a Voice Shopping Assistant by Using Universal Dependencies	Mar 29, 2021	Language ModelingLanguage Modelling	—Unverified
Entity Context Graph: Learning Entity Representations fromSemi-Structured Textual Sources on the Web	Mar 29, 2021	Entity EmbeddingsGraph Learning	—Unverified
BART based semantic correction for Mandarin automatic speech recognition system	Mar 26, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Correcting Automated and Manual Speech Transcription Errors using Warped Language Models	Mar 26, 2021	Language ModelingLanguage Modelling	—Unverified
An Approach to Improve Robustness of NLP Systems against ASR Errors	Mar 25, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Visual Grounding Strategies for Text-Only Natural Language Processing	Mar 25, 2021	Image RetrievalLanguage Modeling	—Unverified
K-XLNet: A General Method for Combining Explicit Knowledge with Language Model Pretraining	Mar 25, 2021	Common Sense ReasoningLanguage Modeling	—Unverified
Thinking Aloud: Dynamic Context Generation Improves Zero-Shot Reasoning Performance of GPT-2	Mar 24, 2021	Language ModelingLanguage Modelling	—Unverified
Low-Resource Machine Translation Training Curriculum Fit for Low-Resource Languages	Mar 24, 2021	Cross-Lingual Bitext MiningLanguage Modelling	—Unverified
Hallucination of speech recognition errors with sequence to sequence learning	Mar 23, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Variable Name Recovery in Decompiled Binary Code using Constrained Masked Language Modeling	Mar 23, 2021	Language ModelingLanguage Modelling	—Unverified
Nutri-bullets: Summarizing Health Studies by Composing Segments	Mar 22, 2021	Document SummarizationLanguage Modeling	CodeCode Available
Attribute Alignment: Controlling Text Generation from Pre-trained Language Models	Mar 20, 2021	AttributeDiversity	CodeCode Available
Play the Shannon Game With Language Models: A Human-Free Approach to Summary Evaluation	Mar 19, 2021	Language ModelingLanguage Modelling	—Unverified
Set-to-Sequence Methods in Machine Learning: a Review	Mar 17, 2021	BIG-bench Machine LearningLanguage Modeling	—Unverified
Towards Few-Shot Fact-Checking via Perplexity	Mar 17, 2021	Fact CheckingFew-Shot Learning	—Unverified
Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning with Self-Knowledge Distillation	Mar 17, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Value-aware Approximate Attention	Mar 17, 2021	Language ModelingLanguage Modelling	CodeCode Available
UniParma at SemEval-2021 Task 5: Toxic Spans Detection Using CharacterBERT and Bag-of-Words Model	Mar 17, 2021	Language ModelingLanguage Modelling	CodeCode Available
Advancing RNN Transducer Technology for Speech Recognition	Mar 17, 2021	Language ModelingLanguage Modelling	—Unverified
Double Articulation Analyzer with Prosody for Unsupervised Word and Phoneme Discovery	Mar 15, 2021	Language ModellingTime Series	CodeCode Available
Claim Verification using a Multi-GAN based Model	Mar 14, 2021	Claim VerificationLanguage Modeling	—Unverified
Learning a Word-Level Language Model with Sentence-Level Noise Contrastive Estimation for Contextual Sentence Probability Estimation	Mar 14, 2021	Language ModelingLanguage Modelling	—Unverified
Optimal Embedding Calibration for Symbolic Music Similarity	Mar 13, 2021	Language ModelingLanguage Modelling	—Unverified
Improving Diversity of Neural Text Generation via Inverse Probability Weighting	Mar 13, 2021	DiversityLanguage Modeling	—Unverified
Bilingual Dictionary-based Language Model Pretraining for Neural Machine Translation	Mar 12, 2021	Language ModelingLanguage Modelling	—Unverified
Evaluation of Morphological Embeddings for English and Russian Languages	Mar 11, 2021	Language ModelingLanguage Modelling	—Unverified
On Improving Deep Learning Trace Analysis with System Call Arguments	Mar 11, 2021	Deep LearningLanguage Modelling	—Unverified
Learning Feature Weights using Reward Modeling for Denoising Parallel Corpora	Mar 11, 2021	DenoisingLanguage Modeling	—Unverified
Relational Weight Priors in Neural Networks for Abstract Pattern Learning and Language Modelling	Mar 10, 2021	Inductive BiasLanguage Modelling	—Unverified
Combining Context-Free and Contextualized Representations for Arabic Sarcasm Detection and Sentiment Identification	Mar 9, 2021	Language ModelingLanguage Modelling	—Unverified
MTLHealth: A Deep Learning System for Detecting Disturbing Content in Student Essays	Mar 7, 2021	Language ModelingLanguage Modelling	—Unverified
Extracting Semantic Process Information from the Natural Language in Event Logs	Mar 6, 2021	AttributeLanguage Modeling	—Unverified
Advances in Multi-turn Dialogue Comprehension: A Survey	Mar 4, 2021	DiversityLanguage Modelling	—Unverified
Random Feature Attention	Mar 3, 2021	Language ModelingLanguage Modelling	—Unverified
University of Copenhagen Participation in TREC Health Misinformation Track 2020	Mar 3, 2021	Language ModelingLanguage Modelling	—Unverified
Unsupervised Word Segmentation with Bi-directional Neural Language Model	Mar 2, 2021	Language ModelingLanguage Modelling	CodeCode Available
The Rediscovery Hypothesis: Language Models Need to Meet Linguistics	Mar 2, 2021	Language ModelingLanguage Modelling	—Unverified
Long Document Summarization in a Low Resource Setting using Pretrained Language Models	Mar 1, 2021	Abstractive Text SummarizationDocument Summarization	—Unverified
Unbiased Sentence Encoder For Large-Scale Multi-lingual Search Engines	Mar 1, 2021	Document RankingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 283 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified