Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–175 of 431 papers

Title	Date	Tasks	Status	Hype
An analysis of large speech models-based representations for speech emotion recognition	Nov 1, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Pre-trained Speech Processing Models Contain Human-Like Biases that Propagate to Speech Emotion Recognition	Oct 29, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0
EmoDiarize: Speaker Diarization and Emotion Identification from Speech Signals using Convolutional Neural Networks	Oct 19, 2023	Data AugmentationEmotion Recognition	—Unverified	0
Integrating Contrastive Learning into a Multitask Transformer Model for Effective Domain Adaptation	Oct 7, 2023	Contrastive LearningCross-corpus	—Unverified	0
LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT	Oct 7, 2023	Audio captioningAutomatic Speech Recognition	CodeCode Available	2
Prompting Audios Using Acoustic Properties For Emotion Representation	Oct 3, 2023	Contrastive LearningDiversity	—Unverified	0
End-to-End Continuous Speech Emotion Recognition in Real-life Customer Service Call Center Conversations	Oct 2, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Active Learning Based Fine-Tuning Framework for Speech Emotion Recognition	Sep 30, 2023	Active LearningEmotion Recognition	—Unverified	0
Unsupervised Representations Improve Supervised Learning in Speech Emotion Recognition	Sep 22, 2023	Emotion ClassificationEmotion Recognition	—Unverified	0
The Broad Impact of Feature Imitation: Neural Enhancements Across Financial, Speech, and Physiological Domains	Sep 21, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Ensembling Multilingual Pre-Trained Models for Predicting Multi-Label Regression Emotion Share from Speech	Sep 20, 2023	Emotion RecognitionEnsemble Learning	—Unverified	0
Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion Recognition	Sep 19, 2023	Data AugmentationEmotion Recognition	—Unverified	0
Speech Emotion Recognition with Distilled Prosodic and Linguistic Affect Representations	Sep 9, 2023	Emotion RecognitionKnowledge Distillation	—Unverified	0
LanSER: Language-Model Supported Speech Emotion Recognition	Sep 7, 2023	Automatic Speech RecognitionEmotion Recognition	—Unverified	0
Personalized Adaptation with Pre-trained Speech Encoders for Continuous Emotion Recognition	Sep 5, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Noise robust speech emotion recognition with signal-to-noise ratio adapting speech enhancement	Sep 3, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
MSM-VC: High-fidelity Source Style Transfer for Non-Parallel Voice Conversion by Multi-scale Style Modeling	Sep 3, 2023	Data AugmentationDisentanglement	—Unverified	0
Supervised Contrastive Learning with Nearest Neighbor Search for Speech Emotion Recognition	Aug 31, 2023	Contrastive LearningEmotion Recognition	—Unverified	0
Multiscale Contextual Learning for Speech Emotion Recognition in Emergency Call Center Conversations	Aug 28, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Decoding Emotions: A comprehensive Multilingual Study of Speech Models for Speech Emotion Recognition	Aug 17, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0
MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition	Aug 8, 2023	AttributeCross-corpus	—Unverified	0
Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio Detection	Aug 7, 2023	Continual LearningEmotion Recognition	CodeCode Available	1
"We care": Improving Code Mixed Speech Emotion Recognition in Customer-Care Conversations	Aug 6, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Capturing Spectral and Long-term Contextual Information for Speech Emotion Recognition Using Deep Learning Techniques	Aug 4, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Emo-DNA: Emotion Decoupling and Alignment Learning for Cross-Corpus Speech Emotion Recognition	Aug 4, 2023	Cross-corpusDomain Adaptation	CodeCode Available	1

Show:10 25 50

← PrevPage 7 of 18Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified