Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 176–200 of 431 papers

Title	Date	Tasks	Status	Hype
A Change of Heart: Improving Speech Emotion Recognition through Speech-to-Text Modality Conversion	Jul 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Cross-Corpus Multilingual Speech Emotion Recognition: Amharic vs. Other Languages	Jul 20, 2023	Cross-corpusEmotion Recognition	—Unverified	0
Vesper: A Compact and Effective Pretrained Model for Speech Emotion Recognition	Jul 20, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
Evaluating raw waveforms with deep learning frameworks for speech emotion recognition	Jul 6, 2023	Emotion RecognitionEnsemble Learning	—Unverified	0
Empirical Interpretation of the Relationship Between Speech Acoustic Context and Emotion Recognition	Jun 30, 2023	Emotional IntelligenceEmotion Recognition	—Unverified	0
Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech Emotion Recognition	Jun 26, 2023	Data AugmentationEmotion Recognition	CodeCode Available	1
Cross-Language Speech Emotion Recognition Using Multimodal Dual Attention Transformers	Jun 23, 2023	Emotion ClassificationEmotion Recognition	—Unverified	0
Speech Emotion Diarization: Which Emotion Appears When?	Jun 22, 2023	Emotion Recognitionspeaker-diarization	CodeCode Available	1
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition	Jun 13, 2023	AttributeContrastive Learning	—Unverified	0
MFSN: Multi-perspective Fusion Search Network For Pre-training Knowledge in Speech Emotion Recognition	Jun 12, 2023	Emotion RecognitionQuantization	—Unverified	0
Exploring Attention Mechanisms for Multimodal Emotion Recognition in an Emergency Call Center Corpus	Jun 12, 2023	Decision MakingEmotion Recognition	—Unverified	0
Learning Emotional Representations from Imbalanced Speech Data for Speech Emotion Recognition and Emotional Text-to-Speech	Jun 9, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Leveraging Semantic Information for Efficient Self-Supervised Emotion Recognition with Audio-Textual Distilled Models	May 30, 2023	Emotion RecognitionSelf-Supervised Learning	—Unverified	0
Transforming the Embeddings: A Lightweight Technique for Speech Emotion Recognition Tasks	May 29, 2023	Emotion RecognitionSpeaker Recognition	—Unverified	0
ASR and Emotional Speech: A Word-Level Investigation of the Mutual Impact of Speech and Emotion Recognition	May 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Transfer Learning for Personality Perception via Speech Emotion Recognition	May 25, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Enhancing Speech Emotion Recognition Through Differentiable Architecture Search	May 23, 2023	Emotion RecognitionNeural Architecture Search	CodeCode Available	1
On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion and Automatic Speech Recognition	May 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Versatile audio-visual learning for emotion recognition	May 12, 2023	Arousal EstimationAttribute	—Unverified	0
Learning Robust Self-attention Features for Speech Emotion Recognition with Label-adaptive Mixup	May 7, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0
A multimodal dynamical variational autoencoder for audiovisual speech representation learning	May 5, 2023	DenoisingDisentanglement	CodeCode Available	0
A vector quantized masked autoencoder for audiovisual speech emotion recognition	May 5, 2023	Contrastive LearningEmotion Recognition	—Unverified	0
A Comparative Study of Pre-trained Speech and Audio Embeddings for Speech Emotion Recognition	Apr 22, 2023	Emotion RecognitionSpeaker Recognition	—Unverified	0
A vector quantized masked autoencoder for speech emotion recognition	Apr 21, 2023	Emotion RecognitionSelf-Supervised Learning	CodeCode Available	1
An Empirical Study and Improvement for Speech Emotion Recognition	Apr 8, 2023	Emotion RecognitionMultimodal Emotion Recognition	—Unverified	0

Show:10 25 50

← PrevPage 8 of 18Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified