Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 13951–14000 of 17610 papers

Title	Date	Tasks	Status
Language Model Evaluation Beyond Perplexity	May 31, 2021	Language Model EvaluationLanguage Modeling	—Unverified
Verdi: Quality Estimation and Error Detection for Bilingual Corpora	May 31, 2021	Language ModellingMachine Translation	CodeCode Available
Tesseract: Parallelize the Tensor Parallelism Efficiently	May 30, 2021	GPULanguage Modelling	—Unverified
NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural Architecture Search	May 30, 2021	Language ModellingModel Compression	—Unverified
Sentiment analysis in tweets: an assessment study from classical to modern text representation models	May 29, 2021	Decision MakingLanguage Modelling	CodeCode Available
Predictive Representation Learning for Language Modeling	May 29, 2021	Language ModelingLanguage Modelling	—Unverified
Lightweight Cross-Lingual Sentence Representation Learning	May 28, 2021	Contrastive LearningDocument Classification	CodeCode Available
Investigating Code-Mixed Modern Standard Arabic-Egyptian to English Machine Translation	May 28, 2021	Language ModelingLanguage Modelling	—Unverified
Generative Adversarial Imitation Learning for Empathy-based AI	May 27, 2021	Imitation LearningLanguage Modelling	—Unverified
Generative Text Modeling through Short Run Inference	May 27, 2021	Language Modelling	CodeCode Available
Leveraging Linguistic Coordination in Reranking N-Best Candidates For End-to-End Response Selection Using BERT	May 27, 2021	Language ModelingLanguage Modelling	—Unverified
On Privacy and Confidentiality of Communications in Organizational Graphs	May 27, 2021	Language Modelling	—Unverified
SGPT: Semantic Graphs based Pre-training for Aspect-based Sentiment Analysis	May 26, 2021	Aspect-Based Sentiment AnalysisAspect-Based Sentiment Analysis (ABSA)	—Unverified
Towards an IMU-based Pen Online Handwriting Recognizer	May 26, 2021	Handwriting RecognitionLanguage Modeling	—Unverified
NukeLM: Pre-Trained and Fine-Tuned Language Models for the Nuclear and Energy Domains	May 25, 2021	ArticlesLanguage Modelling	—Unverified
Empirical Error Modeling Improves Robustness of Noisy Neural Sequence Labeling	May 25, 2021	Language ModelingLanguage Modelling	CodeCode Available
Few-Shot Upsampling for Protest Size Detection	May 24, 2021	Language ModellingQuestion Answering	CodeCode Available
Pre-trained Language Model based Ranking in Baidu Search	May 24, 2021	Language ModelingLanguage Modelling	—Unverified
LMSOC: An approach for socially sensitive pretraining	May 22, 2021	Cloze TestGraph Representation Learning	—Unverified
Unsupervised Multilingual Sentence Embeddings for Parallel Corpus Mining	May 21, 2021	Language ModelingLanguage Modelling	—Unverified
Aligning Visual Prototypes with BERT Embeddings for Few-Shot Learning	May 21, 2021	Cross-Lingual Word EmbeddingsFew-Shot Learning	—Unverified
GapPredict: A Language Model for Resolving Gaps in Draft Genome Assemblies	May 21, 2021	Language ModelingLanguage Modelling	CodeCode Available
See, Hear, Read: Leveraging Multimodality with Guided Attention for Abstractive Text Summarization	May 20, 2021	Abstractive Text SummarizationDecoder	—Unverified
VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding	May 20, 2021	Action SegmentationLanguage Modeling	—Unverified
Accelerating Gossip SGD with Periodic Global Averaging	May 19, 2021	image-classificationImage Classification	—Unverified
Exploring Text-to-Text Transformers for English to Hinglish Machine Translation with Synthetic Code-Mixing	May 18, 2021	DecoderLanguage Modelling	—Unverified
Text based personality prediction from multiple social media data sources using pre-trained language model and model averaging	May 17, 2021	Language ModelingLanguage Modelling	—Unverified
Sentence Similarity Based on Contexts	May 17, 2021	Language ModelingLanguage Modelling	—Unverified
Neural Predictive Text for Grammatical Error Prevention	May 16, 2021	Grammatical Error CorrectionLanguage Modeling	—Unverified
SINA-BERT: A Pre-Trained Language Model for Analysis of Medical Texts in Persian	May 16, 2021	Language ModelingLanguage Modelling	—Unverified
Doc2Dict: Information Extraction as Text Generation	May 16, 2021	GPULanguage Modeling	CodeCode Available
A Cognitive Regularizer for Language Modeling	May 15, 2021	Inductive BiasLanguage Modeling	—Unverified
From Masked Language Modeling to Translation: Non-English Auxiliary Tasks Improve Zero-shot Spoken Language Understanding	May 15, 2021	intent-classificationIntent Classification	CodeCode Available
Towards Human-Free Automatic Quality Evaluation of German Summarization	May 13, 2021	InformativenessLanguage Modeling	—Unverified
Slower is Better: Revisiting the Forgetting Mechanism in LSTM for Slower Information Decay	May 12, 2021	image-classificationImage Classification	—Unverified
Matching Visual Features to Hierarchical Semantic Topics for Image Paragraph Captioning	May 10, 2021	Image Paragraph CaptioningLanguage Modeling	CodeCode Available
Speech2Slot: An End-to-End Knowledge-based Slot Filling from Speech	May 10, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Dispatcher: A Message-Passing Approach To Language Modelling	May 9, 2021	Language Modelling	CodeCode Available
Enhancing Transformers with Gradient Boosted Decision Trees for NLI Fine-Tuning	May 8, 2021	Language ModellingNatural Language Inference	CodeCode Available
Is Incoherence Surprising? Targeted Evaluation of Coherence Prediction from Language Models	May 7, 2021	Coherence EvaluationLanguage Modelling	CodeCode Available
Computer-Aided Design as Language	May 6, 2021	Language ModelingLanguage Modelling	—Unverified
Inferring the Reader: Guiding Automated Story Generation with Commonsense Reasoning	May 4, 2021	Language ModelingLanguage Modelling	CodeCode Available
HerBERT: Efficiently Pretrained Transformer-based Language Model for Polish	May 4, 2021	Language ModelingLanguage Modelling	—Unverified
Impact of Gender Debiased Word Embeddings in Language Modeling	May 3, 2021	FairnessLanguage Modeling	—Unverified
Goldilocks: Just-Right Tuning of BERT for Technology-Assisted Review	May 3, 2021	Active LearningLanguage Modeling	—Unverified
Unsupervised Document Expansion for Information Retrieval with Stochastic Text Generation	May 3, 2021	Information RetrievalLanguage Modeling	CodeCode Available
On the limit of English conversational speech recognition	May 3, 2021	DecoderEnglish Conversational Speech Recognition	—Unverified
Larger-Scale Transformers for Multilingual Masked Language Modeling	May 2, 2021	Language ModelingLanguage Modelling	—Unverified
It’s Basically the Same Language Anyway: the Case for a Nordic Language Model	May 1, 2021	Language ModelingLanguage Modelling	—Unverified
Measuring Translationese across Levels of Expertise: Are Professionals more Surprising than Students?	May 1, 2021	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 280 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified