Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–375 of 431 papers

Title	Date	Tasks	Status	Hype
Multi-stream Attention-based BLSTM with Feature Segmentation for Speech Emotion Recognition	Oct 25, 2020	Data AugmentationEmotional Speech Synthesis	—Unverified	0
Dynamic Layer Customization for Noise Robust Speech Emotion Recognition in Heterogeneous Condition Training	Oct 21, 2020	Domain AdaptationEmotion Recognition	—Unverified	0
Multi-Window Data Augmentation Approach for Speech Emotion Recognition	Oct 19, 2020	Data AugmentationEmotion Recognition	—Unverified	0
Optimizing Speech Emotion Recognition using Manta-Ray Based Feature Selection	Sep 18, 2020	ClassificationEmotion Recognition	—Unverified	0
Is Everything Fine, Grandma? Acoustic and Linguistic Modeling for Robust Elderly Speech Emotion Recognition	Sep 7, 2020	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0
Fine-grained Early Frequency Attention for Deep Speaker Representation Learning	Sep 3, 2020	Deep LearningEmotion Recognition	—Unverified	0
Jointly Fine-Tuning “BERT-like” Self Supervised Models to Improve Multimodal Speech Emotion Recognition	Aug 15, 2020	Emotion RecognitionMultimodal Deep Learning	CodeCode Available	1
A Transfer Learning Method for Speech Emotion Recognition from Automatic Speech Recognition	Aug 6, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Compact Graph Architecture for Speech Emotion Recognition	Aug 5, 2020	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
Shallow over Deep Neural Networks: A empirical analysis for human emotion classification using audio data	Jul 3, 2020	Emotion ClassificationEmotion Recognition	—Unverified	0
Meta Transfer Learning for Emotion Recognition	Jun 23, 2020	Emotion RecognitionFacial Expression Recognition	—Unverified	0
A Siamese Neural Network with Modified Distance Loss For Transfer Learning in Speech Emotion Recognition	Jun 4, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
ConcealNet: An End-to-end Neural Network for Packet Loss Concealment in Deep Speech Emotion Recognition	May 15, 2020	Emotion RecognitionPacket Loss Concealment	—Unverified	0
"I have vxxx bxx connexxxn!": Facing Packet Loss in Deep Speech Emotion Recognition	May 15, 2020	Data AugmentationEmotion Recognition	—Unverified	0
Deep Multilayer Perceptrons for Dimensional Speech Emotion Recognition	Apr 6, 2020	Deep LearningEmotion Recognition	CodeCode Available	1
On The Differences Between Song and Speech Emotion Recognition: Effect of Feature Sets, Feature Types, and Classifiers	Apr 1, 2020	Emotion Recognitionregression	CodeCode Available	0
Evaluation of Error and Correlation-Based Loss Functions For Multitask Learning Dimensional Speech Emotion Recognition	Mar 24, 2020	Emotion Recognitionregression	CodeCode Available	1
Cross Lingual Cross Corpus Speech Emotion Recognition	Mar 18, 2020	Cross-corpusEmotion Recognition	—Unverified	0
Speech emotion recognition with deep convolutional neural networks	Feb 15, 2020	Audio ClassificationEmotion Recognition	CodeCode Available	1
Speech Emotion Recognition using Support Vector Machine	Feb 3, 2020	ClassificationEmotion Recognition	—Unverified	0
Non-linear Neurons with Human-like Apical Dendrite Activations	Feb 2, 2020	Speech Emotion Recognition	CodeCode Available	0
Speech Emotion Recognition Based on Multi-feature and Multi-lingual Fusion	Jan 16, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Visually Guided Self Supervised Learning of Speech Representations	Jan 13, 2020	Emotion RecognitionRepresentation Learning	—Unverified	0
Learning Transferable Features for Speech Emotion Recognition	Dec 23, 2019	Domain AdaptationEmotional Intelligence	—Unverified	0
Bimodal Speech Emotion Recognition Using Pre-Trained Language Models	Nov 29, 2019	Emotion RecognitionReinforcement Learning	—Unverified	0

Show:10 25 50

← PrevPage 15 of 18Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified