Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–425 of 431 papers

Title	Date	Tasks	Status	Hype
Emotion Recognition in Speech using Cross-Modal Transfer in the Wild	Aug 16, 2018	Emotion RecognitionFacial Emotion Recognition	—Unverified	0
Normalization Before Shaking Toward Learning Symmetrically Distributed Representation Without Margin in Speech Emotion Recognition	Aug 2, 2018	Data AugmentationEmotion Recognition	—Unverified	0
The Emotional Voices Database: Towards Controlling the Emotion Dimension in Voice Generation Systems	Jun 25, 2018	Speech Emotion RecognitionSpeech Synthesis	CodeCode Available	0
Evaluating Gammatone Frequency Cepstral Coefficients with Neural Networks for Emotion Recognition from Speech	Jun 23, 2018	ClassificationEmotion Recognition	CodeCode Available	0
On Enhancing Speech Emotion Recognition using Generative Adversarial Networks	Jun 18, 2018	Cross-corpusEmotion Recognition	—Unverified	0
Attention Based Fully Convolutional Network for Speech Emotion Recognition	Jun 5, 2018	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0
Curriculum Learning for Speech Emotion Recognition from Crowdsourced Labels	May 25, 2018	Emotion RecognitionMulti-class Classification	—Unverified	0
Domain Adversarial for Acoustic Emotion Recognition	Apr 20, 2018	AttributeEmotion Recognition	—Unverified	0
On the Robustness of Speech Emotion Recognition for Human-Robot Interaction with Deep Neural Networks	Apr 6, 2018	Data AugmentationEmotion Recognition	—Unverified	0
Speech Emotion Recognition Considering Local Dynamic Features	Mar 21, 2018	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Cross-lingual and Multilingual Speech Emotion Recognition on English and French	Mar 1, 2018	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
CNN+LSTM Architecture for Speech Emotion Recognition with Data Augmentation	Feb 15, 2018	Data AugmentationEmotion Recognition	—Unverified	0
Transfer Learning for Improving Speech Emotion Classification Accuracy	Jan 19, 2018	ClassificationCross-corpus	CodeCode Available	0
Variational Autoencoders for Learning Latent Representations of Speech Emotion: A Preliminary Study	Dec 23, 2017	Emotion ClassificationEmotion Recognition	—Unverified	0
Learning Spontaneity to Improve Emotion Recognition In Speech	Dec 12, 2017	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Forewords	Dec 1, 2017	Emotion RecognitionIntent Classification	—Unverified	0
A Novel Trajectory-based Spatial-Temporal Spectral Features for Speech Emotion Recognition	Dec 1, 2017	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Research on several key technologies in practical speech emotion recognition	Sep 27, 2017	ClusteringEmotion Recognition	—Unverified	0
Learning spectro-temporal features with 3D CNNs for speech emotion recognition	Aug 14, 2017	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Towards Speech Emotion Recognition "in the wild" using Aggregated Corpora and Deep Multi-Task Learning	Aug 13, 2017	Cross-corpusEmotion Recognition	—Unverified	0
A breakthrough in Speech emotion recognition using Deep Retinal Convolution Neural Networks	Jul 12, 2017	Data AugmentationEmotion Recognition	—Unverified	0
Attention Is All You Need	Jun 12, 2017	Abstractive Text SummarizationAll	CodeCode Available	3
Characterizing Types of Convolution in Deep Convolutional Recurrent Neural Networks for Robust Speech Emotion Recognition	Jun 7, 2017	Emotion RecognitionEvent Detection	—Unverified	0
Attentive Convolutional Neural Network based Speech Emotion Recognition: A Study on the Impact of Input Features, Signal Length, and Acted Speech	Jun 2, 2017	Emotion RecognitionMULTI-VIEW LEARNING	—Unverified	0
Study on Feature Subspace of Archetypal Emotions for Speech Emotion Recognition	Nov 17, 2016	Emotion RecognitionGeneral Classification	—Unverified	0

Show:10 25 50

← PrevPage 17 of 18Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified