Language Modelling

A language model is a model of natural language. Language models are useful for a variety of tasks, including speech recognition, machine translation, natural language generation (generating more human-like text), optical character recognition, route optimization, handwriting recognition, grammar induction, and information retrieval.

Large language models (LLMs), currently their most advanced form, are predominantly based on transformers trained on larger datasets (frequently using words scraped from the public internet). They have superseded recurrent neural network-based models, which had previously superseded the purely statistical models, such as word n-gram language model.

Source: Wikipedia

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11501–11550 of 17610 papers

Title	Date	Tasks	Status	Hype
Open-Vocabulary Multi-Label Classification via Multi-Modal Knowledge Transfer	Jul 5, 2022	Image-text matchingKnowledge Distillation	CodeCode Available	1
Robustness Analysis of Video-Language Models Against Visual and Language Perturbations	Jul 5, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
ASR-Generated Text for Language Model Pre-training Applied to Speech Tasks	Jul 5, 2022	Language ModelingLanguage Modelling	—Unverified	0
Cross-Lingual QA as a Stepping Stone for Monolingual Open QA in Icelandic	Jul 5, 2022	Language ModelingLanguage Modelling	—Unverified	0
Egocentric Video-Language Pretraining @ Ego4D Challenge 2022	Jul 4, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
BERT, can HE predict contrastive focus? Predicting and controlling prominence in neural TTS using a language model	Jul 4, 2022	Language ModelingLanguage Modelling	—Unverified	0
Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022	Jul 4, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
Accurate RNA 3D structure prediction using a language model-based deep learning approach	Jul 4, 2022	Language ModelingLanguage Modelling	CodeCode Available	2
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition	Jul 4, 2022	Action ClassificationAction Recognition	CodeCode Available	2
Probing via Prompting	Jul 4, 2022	DiagnosticLanguage Modeling	CodeCode Available	1
Generating Repetitions with Appropriate Repeated Words	Jul 3, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
UserLibri: A Dataset for ASR Personalization Using Only Text	Jul 2, 2022	Language ModelingLanguage Modelling	—Unverified	0
FRAME: Evaluating Rationale-Label Consistency Metrics for Free-Text Rationales	Jul 2, 2022	HallucinationLanguage Modelling	—Unverified	0
Intent Discovery for Enterprise Virtual Assistants: Applications of Utterance Embedding and Clustering to Intent Mining	Jul 1, 2022	Intent DiscoveryLanguage Modeling	—Unverified	0
HATE-ITA: New Baselines for Hate Speech Detection in Italian	Jul 1, 2022	BenchmarkingHate Speech Detection	CodeCode Available	0
Exploring the Effect of Dialect Mismatched Language Models in Telugu Automatic Speech Recognition	Jul 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Self-supervised Product Title Rewrite for Product Listing Ads	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Minimally-Supervised Relation Induction from Pre-trained Language Model	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
SwahBERT: Language Model of Swahili	Jul 1, 2022	Emotion ClassificationLanguage Modeling	—Unverified	0
Mask and Regenerate: A Classifier-based Approach for Unpaired Sentiment Transformation of Reviews for Electronic Commerce Websites.	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Modal Dependency Parsing via Language Model Priming	Jul 1, 2022	Dependency ParsingLanguage Modeling	CodeCode Available	0
MT-Speech at SemEval-2022 Task 10: Incorporating Data Augmentation and Auxiliary Task with Cross-Lingual Pretrained Language Model for Structured Sentiment Analysis	Jul 1, 2022	Data AugmentationLanguage Modeling	—Unverified	0
L3i at SemEval-2022 Task 11: Straightforward Additional Context for Multilingual Named Entity Recognition	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
SPDB Innovation Lab at SemEval-2022 Task 10: A Novel End-to-End Structured Sentiment Analysis Model based on the ERNIE-M	Jul 1, 2022	Data AugmentationLanguage Modeling	—Unverified	0
niksss at SemEval-2022 Task 6: Are Traditionally Pre-Trained Contextual Embeddings Enough for Detecting Intended Sarcasm ?	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
MarSan at SemEval-2022 Task 11: Multilingual complex named entity recognition using T5 and transformer encoder	Jul 1, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
KroneckerBERT: Significant Compression of Pre-trained Language Models Through Kronecker Decomposition and Knowledge Distillation	Jul 1, 2022	Knowledge DistillationLanguage Modeling	—Unverified	0
Learning Natural Language Generation with Truncated Reinforcement Learning	Jul 1, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
JBNU-CCLab at SemEval-2022 Task 7: DeBERTa for Identifying Plausible Clarifications in Instructional Texts	Jul 1, 2022	ArticlesLanguage Modeling	—Unverified	0
Language Model Augmented Monotonic Attention for Simultaneous Translation	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
CoMPM: Context Modeling with Speaker’s Pre-trained Memory Tracking for Emotion Recognition in Conversation	Jul 1, 2022	Emotion RecognitionEmotion Recognition in Conversation	CodeCode Available	1
Identifying Human Needs through Social Media: A study on Indian cities during COVID-19	Jul 1, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
”Diversity and Uncertainty in Moderation” are the Key to Data Selection for Multilingual Few-shot Transfer	Jul 1, 2022	DiversityLanguage Modeling	—Unverified	0
CL-ReLKT: Cross-lingual Language Knowledge Transfer for Multilingual Retrieval Question Answering	Jul 1, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
ConfliBERT: A Pre-trained Language Model for Political Conflict and Violence	Jul 1, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Clinical Flair: A Pre-Trained Language Model for Spanish Clinical Natural Language Processing	Jul 1, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
HuaAMS at SemEval-2022 Task 8: Combining Translation and Domain Pre-training for Cross-lingual News Article Similarity	Jul 1, 2022	ArticlesLanguage Modeling	—Unverified	0
Improving Classification of Infrequent Cognitive Distortions: Domain-Specific Model vs. Data Augmentation	Jul 1, 2022	Data AugmentationLanguage Modeling	—Unverified	0
A Dog Is Passing Over The Jet? A Text-Generation Dataset for Korean Commonsense Reasoning and Evaluation	Jul 1, 2022	Language Model EvaluationLanguage Modeling	—Unverified	0
Don’t Forget About Pronouns: Removing Gender Bias in Language Models Without Losing Factual Gender Information	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
GPT-2-based Human-in-the-loop Theatre Play Script Generation	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Attention Fusion: a light yet efficient late fusion mechanism for task adaptation in NLU	Jul 1, 2022	Language Modelling	—Unverified	0
Exposing the Limits of Video-Text Models through Contrast Sets	Jul 1, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
Empathetic Persuasion: Reinforcing Empathy and Persuasiveness in Dialogue Systems	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Infrrd.ai at SemEval-2022 Task 11: A system for named entity recognition using data augmentation, transformer-based sequence labeling model, and EnsembleCRF	Jul 1, 2022	Data AugmentationLanguage Modeling	—Unverified	0
Beyond Characters: Subword-level Morpheme Segmentation	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Improving Conversational Recommendation Systems’ Quality with Context-Aware Item Meta-Information	Jul 1, 2022	Conversational RecommendationKnowledge Graphs	—Unverified	0
DANGNT-SGU at SemEval-2022 Task 11: Using Pre-trained Language Model for Complex Named Entity Recognition	Jul 1, 2022	Language ModelingLanguage Modelling	—Unverified	0
Data Augmentation with Dual Training for Offensive Span Detection	Jul 1, 2022	Data AugmentationLanguage Modeling	—Unverified	0
A Self-supervised Joint Training Framework for Document Reranking	Jul 1, 2022	DecoderLanguage Modelling	—Unverified	0

Show:10 25 50

← PrevPage 231 of 353Next →

All datasets WikiText-103 Penn Treebank (Word Level)enwik8 The Pile WikiText-2 LAMBADA One Billion Word Text8 Penn Treebank (Character Level)Hutter Prize OpenWebText SALMon

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Decay RNN	Validation perplexity	76.67	—	Unverified
2	GRU	Validation perplexity	53.78	—	Unverified
3	LSTM	Validation perplexity	52.73	—	Unverified
4	LSTM	Test perplexity	48.7	—	Unverified
5	Temporal CNN	Test perplexity	45.2	—	Unverified
6	TCN	Test perplexity	45.19	—	Unverified
7	GCNN-8	Test perplexity	44.9	—	Unverified
8	Neural cache model (size = 100)	Test perplexity	44.8	—	Unverified
9	Neural cache model (size = 2,000)	Test perplexity	40.8	—	Unverified
10	GPT-2 Small	Test perplexity	37.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TCN	Test perplexity	108.47	—	Unverified
2	Seq-U-Net	Test perplexity	107.95	—	Unverified
3	GRU (Bai et al., 2018)	Test perplexity	92.48	—	Unverified
4	R-Transformer	Test perplexity	84.38	—	Unverified
5	Zaremba et al. (2014) - LSTM (medium)	Test perplexity	82.7	—	Unverified
6	Gal & Ghahramani (2016) - Variational LSTM (medium)	Test perplexity	79.7	—	Unverified
7	LSTM (Bai et al., 2018)	Test perplexity	78.93	—	Unverified
8	Zaremba et al. (2014) - LSTM (large)	Test perplexity	78.4	—	Unverified
9	Gal & Ghahramani (2016) - Variational LSTM (large)	Test perplexity	75.2	—	Unverified
10	Inan et al. (2016) - Variational RHN	Test perplexity	66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM (7 layers)	Bit per Character (BPC)	1.67	—	Unverified
2	Hypernetworks	Bit per Character (BPC)	1.34	—	Unverified
3	SHA-LSTM (4 layers, h=1024, no attention head)	Bit per Character (BPC)	1.33	—	Unverified
4	LN HM-LSTM	Bit per Character (BPC)	1.32	—	Unverified
5	ByteNet	Bit per Character (BPC)	1.31	—	Unverified
6	Recurrent Highway Networks	Bit per Character (BPC)	1.27	—	Unverified
7	Large FS-LSTM-4	Bit per Character (BPC)	1.25	—	Unverified
8	Large mLSTM	Bit per Character (BPC)	1.24	—	Unverified
9	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.23	—	Unverified
10	Cluster-Former (#C=512)	Bit per Character (BPC)	1.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Smaller Transformer 126M (pre-trained)	Test perplexity	33	—	Unverified
2	OPT 125M	Test perplexity	32.26	—	Unverified
3	Larger Transformer 771M (pre-trained)	Test perplexity	28.1	—	Unverified
4	OPT 1.3B	Test perplexity	19.55	—	Unverified
5	GPT-Neo 125M	Test perplexity	17.83	—	Unverified
6	OPT 2.7B	Test perplexity	17.81	—	Unverified
7	Smaller Transformer 126M (fine-tuned)	Test perplexity	12	—	Unverified
8	GPT-Neo 1.3B	Test perplexity	11.46	—	Unverified
9	Transformer 125M	Test perplexity	10.7	—	Unverified
10	GPT-Neo 2.7B	Test perplexity	10.44	—	Unverified