Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 126–150 of 431 papers

Title	Date	Tasks	Status	Hype
Persian Speech Emotion Recognition by Fine-Tuning Transformers	Feb 11, 2024	Emotion RecognitionSelf-Supervised Learning	—Unverified	0
CochCeps-Augment: A Novel Self-Supervised Contrastive Learning Using Cochlear Cepstrum-based Masking for Speech Emotion Recognition	Feb 10, 2024	Contrastive LearningEmotion Recognition	CodeCode Available	0
Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study on Speech Emotion Recognition	Feb 4, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
STAA-Net: A Sparse and Transferable Adversarial Attack for Speech Emotion Recognition	Feb 2, 2024	Adversarial AttackEmotion Recognition	—Unverified	0
Are Paralinguistic Representations all that is needed for Speech Emotion Recognition?	Feb 2, 2024	AllEmotion Recognition	—Unverified	0
MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, Asr Error Detection, and Asr Error Correction	Jan 24, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Revealing Emotional Clusters in Speaker Embeddings: A Contrastive Learning Strategy for Speech Emotion Recognition	Jan 19, 2024	Contrastive LearningEmotion Recognition	—Unverified	0
Speech Swin-Transformer: Exploring a Hierarchical Transformer with Shifted Windows for Speech Emotion Recognition	Jan 19, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Improving Speaker-independent Speech Emotion Recognition Using Dynamic Joint Distribution Adaptation	Jan 18, 2024	Domain AdaptationEmotion Recognition	—Unverified	0
ED-TTS: Multi-Scale Emotion Modeling using Cross-Domain Emotion Diarization for Emotional Speech Synthesis	Jan 16, 2024	DenoisingEmotional Speech Synthesis	—Unverified	0
TemporalAugmenter: An Ensemble Recurrent Based Deep Learning Approach for Signal Classification	Jan 13, 2024	Data IntegrationEmotion Recognition	—Unverified	0
A Multi-Task, Multi-Modal Approach for Predicting Categorical and Dimensional Emotions	Dec 31, 2023	Emotion RecognitionMulti-Task Learning	—Unverified	0
Frame-level emotional state alignment method for speech emotion recognition	Dec 27, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
DSNet: Disentangled Siamese Network with Neutral Calibration for Speech Emotion Recognition	Dec 25, 2023	DisentanglementEmotion Recognition	—Unverified	0
emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation	Dec 23, 2023	Emotion RecognitionSelf-Supervised Learning	CodeCode Available	3
Leveraged Mel spectrograms using Harmonic and Percussive Components in Speech Emotion Recognition	Dec 18, 2023	Data AugmentationEmotion Recognition	CodeCode Available	0
An Extended Variational Mode Decomposition Algorithm Developed Speech Emotion Recognition Performance	Dec 18, 2023	Emotion RecognitionSentiment Analysis	CodeCode Available	0
Investigating salient representations and label Variance in Dimensional Speech Emotion Analysis	Dec 17, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Testing Correctness, Fairness, and Robustness of Speech Emotion Recognition Models	Dec 11, 2023	Emotion RecognitionFairness	—Unverified	0
Speech and Text-Based Emotion Recognizer	Dec 10, 2023	Data AugmentationEmotion Recognition	—Unverified	0
Churn Prediction via Multimodal Fusion Learning:Integrating Customer Financial Literacy, Voice, and Behavioral Data	Dec 3, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
SER_AMPEL: a multi-source dataset for speech emotion recognition of Italian older adults	Nov 24, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
End-to-end transfer learning for speaker-independent cross-language and cross-corpus speech emotion recognition	Nov 22, 2023	Cross-corpusEmotion Recognition	—Unverified	0
Utilizing Speech Emotion Recognition and Recommender Systems for Negative Emotion Handling in Therapy Chatbots	Nov 18, 2023	ChatbotEmotion Recognition	—Unverified	0
On the Effectiveness of ASR Representations in Real-world Noisy Speech Emotion Recognition	Nov 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0

Show:10 25 50

← PrevPage 6 of 18Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified