Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 431 papers

Title	Date	Tasks	Status	Hype
SERAB: A multi-lingual benchmark for speech emotion recognition	Oct 7, 2021	BenchmarkingEmotion Recognition	CodeCode Available	1
Speech Emotion Recognition Based on CNN+LSTM Model	Oct 1, 2021	Emotion Recognitionmodel	—Unverified	0
BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition	Sep 27, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Hybrid Data Augmentation and Deep Attention-based Dilated Convolutional-Recurrent Neural Networks for Speech Emotion Recognition	Sep 18, 2021	Data AugmentationDeep Attention	—Unverified	0
FSER: Deep Convolutional Neural Networks for Speech Emotion Recognition	Sep 15, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Beyond Isolated Utterances: Conversational Emotion Recognition	Sep 13, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
DeepEMO: Deep Learning for Speech Emotion Recognition	Sep 9, 2021	Deep LearningEmotion Recognition	CodeCode Available	0
Accounting for Variations in Speech Emotion Recognition with Nonparametric Hierarchical Neural Network	Sep 9, 2021	ClusteringCross-corpus	—Unverified	0
Speech Emotion Recognition with Multi-Task Learning	Sep 6, 2021	Emotion ClassificationEmotion Recognition	CodeCode Available	1
Unsupervised Cross-Lingual Speech Emotion Recognition Using Pseudo Multilabel	Aug 19, 2021	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0
Improved Speech Emotion Recognition using Transfer Learning and Spectrogram Augmentation	Aug 5, 2021	Emotion ClassificationEmotion Recognition	—Unverified	0
The Role of Phonetic Units in Speech Emotion Recognition	Aug 2, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
An Improved StarGAN for Emotional Voice Conversion: Enhancing Voice Quality and Data Augmentation	Jul 18, 2021	Data AugmentationEmotion Recognition	CodeCode Available	0
Expressive Voice Conversion: A Joint Framework for Speaker Identity and Emotional Style Transfer	Jul 8, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Automatic Analysis of the Emotional Content of Speech in Daylong Child-Centered Recordings from a Neonatal Intensive Care Unit	Jun 14, 2021	Active LearningBinary Classification	—Unverified	0
Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention	Jun 8, 2021	Emotion ClassificationEmotion Recognition	CodeCode Available	1
An Attribute-Aligned Strategy for Learning Speech Representation	Jun 5, 2021	AttributeEmotion Recognition	—Unverified	0
Deep scattering network for speech emotion recognition	May 11, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Towards Interpretable and Transferable Speech Emotion Recognition: Latent Representation Based Analysis of Features, Methods and Corpora	May 5, 2021	ClusteringDecision Making	—Unverified	0
On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion Recognition: An Update for the Deep Learning Era	Apr 20, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Best Practices for Noise-Based Augmentation to Improve the Performance of Deployable Speech-Based Emotion Recognition Systems	Apr 18, 2021	Adversarial AttackAutomatic Speech Recognition	—Unverified	0
Speaker Attentive Speech Emotion Recognition	Apr 15, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Unsupervised low-rank representations for speech emotion recognition	Apr 14, 2021	Dimensionality ReductionEmotion Recognition	—Unverified	0
Emotion Recognition from Speech Using Wav2vec 2.0 Embeddings	Apr 8, 2021	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
AST: Audio Spectrogram Transformer	Apr 5, 2021	Audio ClassificationAudio Tagging	CodeCode Available	2
Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability	Apr 3, 2021	Emotion Recognitionreinforcement-learning	—Unverified	0
Enhancing Segment-Based Speech Emotion Recognition by Deep Self-Learning	Mar 30, 2021	Emotion RecognitionSelf-Learning	—Unverified	0
Self-paced ensemble learning for speech and audio classification	Mar 22, 2021	Audio ClassificationClassification	—Unverified	0
EmoNet: A Transfer Learning Framework for Multi-Corpus Speech Emotion Recognition	Mar 10, 2021	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
Pre-trained Deep Convolution Neural Network Model With Attention for Speech Emotion Recognition	Mar 2, 2021	Emotion RecognitionSentence	CodeCode Available	1
Investigations on Audiovisual Emotion Recognition in Noisy Conditions	Mar 2, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Contrastive Unsupervised Learning for Speech Emotion Recognition	Feb 12, 2021	Emotion RecognitionRepresentation Learning	—Unverified	0
Non-linear frequency warping using constant-Q transformation for speech emotion recognition	Feb 8, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Speech Emotion Recognition with Multiscale Area Attention and Data Augmentation	Feb 3, 2021	Data AugmentationEmotion Recognition	—Unverified	0
LSSED: a large-scale dataset and benchmark for speech emotion recognition	Jan 30, 2021	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
Fixed-MAML for Few Shot Classification in Multilingual Speech Emotion Recognition	Jan 5, 2021	Emotion RecognitionFew-Shot Learning	CodeCode Available	0
A novel policy for pre-trained Deep Reinforcement Learning for Speech Emotion Recognition	Jan 4, 2021	Cross-corpusDeep Reinforcement Learning	CodeCode Available	0
Unsupervised Cross-Lingual Speech Emotion Recognition Using DomainAdversarial Neural Network	Dec 21, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Multi-Classifier Interactive Learning for Ambiguous Speech Emotion Recognition	Dec 10, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Convolutional and Recurrent Neural Networks for Spoken Emotion Recognition	Dec 1, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Deep Residual Local Feature Learning for Speech Emotion Recognition	Nov 19, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
On the use of Self-supervised Pre-trained Acoustic and Linguistic Features for Continuous Speech Emotion Recognition	Nov 18, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Recognizing More Emotions with Less Data Using Self-supervised Transfer Learning	Nov 11, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Efficient Arabic emotion recognition using deep neural networks	Oct 31, 2020	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0
Empirical Interpretation of Speech Emotion Perception with Attention Based Model for Speech Emotion Recognition	Oct 28, 2020	Emotional IntelligenceEmotion Recognition	—Unverified	0
Context-Dependent Domain Adversarial Neural Network for Multimodal Emotion Recognition	Oct 28, 2020	Emotion RecognitionMultimodal Emotion Recognition	—Unverified	0
Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset	Oct 28, 2020	DecoderEmotion Recognition	CodeCode Available	1
CopyPaste: An Augmentation Method for Speech Emotion Recognition	Oct 27, 2020	Data AugmentationEmotion Recognition	—Unverified	0
Speech SIMCLR: Combining Contrastive and Reconstruction Objective for Self-supervised Speech Representation Learning	Oct 27, 2020	Emotion RecognitionRepresentation Learning	CodeCode Available	1
Emotion controllable speech synthesis using emotion-unlabeled dataset with the assistance of cross-domain speech emotion recognition	Oct 26, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0

Show:10 25 50

← PrevPage 7 of 9Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified