Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 12551–12600 of 17610 papers

Title	Date	Tasks	Status
MarSan at SemEval-2022 Task 11: Multilingual complex named entity recognition using T5 and transformer encoder	Jul 1, 2022	Language ModelingLanguage Modelling	CodeCode Available
Mask and Regenerate: A Classifier-based Approach for Unpaired Sentiment Transformation of Reviews for Electronic Commerce Websites.	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
L3i at SemEval-2022 Task 11: Straightforward Additional Context for Multilingual Named Entity Recognition	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
Learning Natural Language Generation with Truncated Reinforcement Learning	Jul 1, 2022	Language ModelingLanguage Modelling	CodeCode Available
TUG-CIC at SemEval-2021 Task 6: Two-stage Fine-tuning for Intended Sarcasm Detection	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
SwahBERT: Language Model of Swahili	Jul 1, 2022	Emotion ClassificationLanguage Modeling	—Unverified
JBNU-CCLab at SemEval-2022 Task 7: DeBERTa for Identifying Plausible Clarifications in Instructional Texts	Jul 1, 2022	ArticlesLanguage Modeling	—Unverified
Language Model Augmented Monotonic Attention for Simultaneous Translation	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
Self-supervised Product Title Rewrite for Product Listing Ads	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
KroneckerBERT: Significant Compression of Pre-trained Language Models Through Kronecker Decomposition and Knowledge Distillation	Jul 1, 2022	Knowledge DistillationLanguage Modeling	—Unverified
Modal Dependency Parsing via Language Model Priming	Jul 1, 2022	Dependency ParsingLanguage Modeling	CodeCode Available
MT-Speech at SemEval-2022 Task 10: Incorporating Data Augmentation and Auxiliary Task with Cross-Lingual Pretrained Language Model for Structured Sentiment Analysis	Jul 1, 2022	Data AugmentationLanguage Modeling	—Unverified
Minimally-Supervised Relation Induction from Pre-trained Language Model	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
Masking Morphosyntactic Categories to Evaluate Salience for Schizophrenia Diagnosis	Jul 1, 2022	ClassificationLanguage Modeling	—Unverified
SPDB Innovation Lab at SemEval-2022 Task 10: A Novel End-to-End Structured Sentiment Analysis Model based on the ERNIE-M	Jul 1, 2022	Data AugmentationLanguage Modeling	—Unverified
Uncertainty and Inclusivity in Gender Bias Annotation: An Annotation Taxonomy and Annotated Datasets of British English Text	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
HuaAMS at SemEval-2022 Task 8: Combining Translation and Domain Pre-training for Cross-lingual News Article Similarity	Jul 1, 2022	ArticlesLanguage Modeling	—Unverified
An Annotated Dataset and Automatic Approaches for Discourse Mode Identification in Low-resource Bengali Language	Jul 1, 2022	DescriptiveLanguage Modeling	—Unverified
An Empirical Study on Pseudo-log-likelihood Bias Measures for Masked Language Models Using Paraphrased Sentences	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
Intent Discovery for Enterprise Virtual Assistants: Applications of Utterance Embedding and Clustering to Intent Mining	Jul 1, 2022	Intent DiscoveryLanguage Modeling	—Unverified
A Dog Is Passing Over The Jet? A Text-Generation Dataset for Korean Commonsense Reasoning and Evaluation	Jul 1, 2022	Language Model EvaluationLanguage Modeling	—Unverified
GPT-2-based Human-in-the-loop Theatre Play Script Generation	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
Clinical Flair: A Pre-Trained Language Model for Spanish Clinical Natural Language Processing	Jul 1, 2022	Language ModelingLanguage Modelling	CodeCode Available
Improving Conversational Recommendation Systems’ Quality with Context-Aware Item Meta-Information	Jul 1, 2022	Conversational RecommendationKnowledge Graphs	—Unverified
Data Augmentation with Dual Training for Offensive Span Detection	Jul 1, 2022	Data AugmentationLanguage Modeling	—Unverified
Identifying Human Needs through Social Media: A study on Indian cities during COVID-19	Jul 1, 2022	Language ModelingLanguage Modelling	CodeCode Available
Don’t Forget About Pronouns: Removing Gender Bias in Language Models Without Losing Factual Gender Information	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
Empathetic Persuasion: Reinforcing Empathy and Persuasiveness in Dialogue Systems	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
DANGNT-SGU at SemEval-2022 Task 11: Using Pre-trained Language Model for Complex Named Entity Recognition	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
AnaLog: Testing Analytical and Deductive Logic Learnability in Language Models	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
Improving Classification of Infrequent Cognitive Distortions: Domain-Specific Model vs. Data Augmentation	Jul 1, 2022	Data AugmentationLanguage Modeling	—Unverified
Infrrd.ai at SemEval-2022 Task 11: A system for named entity recognition using data augmentation, transformer-based sequence labeling model, and EnsembleCRF	Jul 1, 2022	Data AugmentationLanguage Modeling	—Unverified
”Diversity and Uncertainty in Moderation” are the Key to Data Selection for Multilingual Few-shot Transfer	Jul 1, 2022	DiversityLanguage Modeling	—Unverified
HATE-ITA: New Baselines for Hate Speech Detection in Italian	Jul 1, 2022	BenchmarkingHate Speech Detection	CodeCode Available
Exploring the Effect of Dialect Mismatched Language Models in Telugu Automatic Speech Recognition	Jul 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Self-supervised Joint Training Framework for Document Reranking	Jul 1, 2022	DecoderLanguage Modelling	—Unverified
Attention Fusion: a light yet efficient late fusion mechanism for task adaptation in NLU	Jul 1, 2022	Language Modelling	—Unverified
Beyond Characters: Subword-level Morpheme Segmentation	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified
Exposing the Limits of Video-Text Models through Contrast Sets	Jul 1, 2022	Language ModelingLanguage Modelling	CodeCode Available
esCorpius: A Massive Spanish Crawling Corpus	Jun 30, 2022	Language Modelling	—Unverified
"Diversity and Uncertainty in Moderation" are the Key to Data Selection for Multilingual Few-shot Transfer	Jun 30, 2022	DiversityLanguage Modeling	—Unverified
GSCLIP : A Framework for Explaining Distribution Shifts in Natural Language	Jun 30, 2022	Language ModelingLanguage Modelling	—Unverified
Language model compression with weighted low-rank factorization	Jun 30, 2022	Language ModelingLanguage Modelling	—Unverified
Two-Stage Classifier for COVID-19 Misinformation Detection Using BERT: a Study on Indonesian Tweets	Jun 30, 2022	Language ModellingMisinformation	CodeCode Available
Towards a Data-Driven Requirements Engineering Approach: Automatic Analysis of User Reviews	Jun 29, 2022	ClassificationLanguage Modeling	CodeCode Available
Simple and Effective Multi-sentence TTS with Expressive and Coherent Prosody	Jun 29, 2022	Language ModelingLanguage Modelling	—Unverified
Knowledge Distillation of Transformer-based Language Models Revisited	Jun 29, 2022	GPUKnowledge Distillation	—Unverified
Contextual Density Ratio for Language Model Biasing of Sequence to Sequence ASR Systems	Jun 29, 2022	Language ModelingLanguage Modelling	—Unverified
GPTs at Factify 2022: Prompt Aided Fact-Verification	Jun 29, 2022	Fact VerificationLanguage Modeling	—Unverified
Improving Deliberation by Text-Only and Semi-Supervised Training	Jun 29, 2022	DecoderLanguage Modeling	—Unverified

Show:10 25 50

← PrevPage 252 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified