Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 431 papers

Title	Date	Tasks	Status
Visually Guided Self Supervised Learning of Speech Representations	Jan 13, 2020	Emotion RecognitionRepresentation Learning	—Unverified
WavFusion: Towards wav2vec 2.0 Multimodal Speech Emotion Recognition	Dec 7, 2024	DiversityEmotion Recognition	—Unverified
"We care": Improving Code Mixed Speech Emotion Recognition in Customer-Care Conversations	Aug 6, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Ensembling Multilingual Pre-Trained Models for Predicting Multi-Label Regression Emotion Share from Speech	Sep 20, 2023	Emotion RecognitionEnsemble Learning	—Unverified
Evaluating raw waveforms with deep learning frameworks for speech emotion recognition	Jul 6, 2023	Emotion RecognitionEnsemble Learning	—Unverified
Exploring Attention Mechanisms for Multimodal Emotion Recognition in an Emergency Call Center Corpus	Jun 12, 2023	Decision MakingEmotion Recognition	—Unverified
Exploring Self-Supervised Multi-view Contrastive Learning for Speech Emotion Recognition with Limited Annotations	Jun 12, 2024	Contrastive LearningEmotion Recognition	—Unverified
Expressive Voice Conversion: A Joint Framework for Speaker Identity and Emotional Style Transfer	Jul 8, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Feature Selection Enhancement and Feature Space Visualization for Speech-Based Emotion Recognition	Aug 19, 2022	Emotion Recognitionfeature selection	—Unverified
Focal Loss based Residual Convolutional Neural Network for Speech Emotion Recognition	Jun 11, 2019	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Forewords	Dec 1, 2017	Emotion RecognitionIntent Classification	—Unverified
FSER: Deep Convolutional Neural Networks for Speech Emotion Recognition	Sep 15, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Fusing ASR Outputs in Joint Training for Speech Emotion Recognition	Oct 29, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Gaussian-smoothed Imbalance Data Improves Speech Emotion Recognition	Feb 17, 2023	Data AugmentationEmotion Recognition	—Unverified
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition	Jun 13, 2023	AttributeContrastive Learning	—Unverified
GMP-TL: Gender-augmented Multi-scale Pseudo-label Enhanced Transfer Learning for Speech Emotion Recognition	May 3, 2024	Emotion RecognitionMulti-Task Learning	—Unverified
Heterogeneous bimodal attention fusion for speech emotion recognition	Mar 9, 2025	Contrastive LearningEmotion Recognition	—Unverified
Are Paralinguistic Representations all that is needed for Speech Emotion Recognition?	Feb 2, 2024	AllEmotion Recognition	—Unverified
Hybrid Data Augmentation and Deep Attention-based Dilated Convolutional-Recurrent Neural Networks for Speech Emotion Recognition	Sep 18, 2021	Data AugmentationDeep Attention	—Unverified
HYFuse: Aligning Heterogeneous Speech Pre-Trained Representations in Hyperbolic Space for Speech Emotion Recognition	Jun 3, 2025	Emotion RecognitionRepresentation Learning	—Unverified
"I have vxxx bxx connexxxn!": Facing Packet Loss in Deep Speech Emotion Recognition	May 15, 2020	Data AugmentationEmotion Recognition	—Unverified
Improved Frame Level Features and SVM Supervectors Approach for the Recogniton of Emotional States from Speech: Application to categorical and dimensional states	Jun 23, 2014	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Improved Speech Emotion Recognition using Transfer Learning and Spectrogram Augmentation	Aug 5, 2021	Emotion ClassificationEmotion Recognition	—Unverified
Improvement and Implementation of a Speech Emotion Recognition Model Based on Dual-Layer LSTM	Nov 14, 2024	Emotion RecognitionSentiment Analysis	—Unverified
Improving Speaker-independent Speech Emotion Recognition Using Dynamic Joint Distribution Adaptation	Jan 18, 2024	Domain AdaptationEmotion Recognition	—Unverified
Improving Speech-based Emotion Recognition with Contextual Utterance Analysis and LLMs	Oct 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Improving Speech Emotion Recognition Through Focus and Calibration Attention Mechanisms	Aug 21, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Improving speech emotion recognition via Transformer-based Predictive Coding through transfer learning	Nov 11, 2018	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Integrating Contrastive Learning into a Multitask Transformer Model for Effective Domain Adaptation	Oct 7, 2023	Contrastive LearningCross-corpus	—Unverified
Investigating Effective Speaker Property Privacy Protection in Federated Learning for Speech Emotion Recognition	Oct 17, 2024	Emotion RecognitionFederated Learning	—Unverified
Investigating salient representations and label Variance in Dimensional Speech Emotion Analysis	Dec 17, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Investigating the Impact of Word Informativeness on Speech Emotion Recognition	Jun 2, 2025	Emotion RecognitionInformativeness	—Unverified
Investigations on Audiovisual Emotion Recognition in Noisy Conditions	Mar 2, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition	Jan 2, 2025	Cross-corpusEmotion Recognition	—Unverified
A Case Study on the Independence of Speech Emotion Recognition in Bangla and English Languages using Language-Independent Prosodic Features	Nov 21, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Fine-grained Early Frequency Attention for Deep Speaker Representation Learning	Sep 3, 2020	Deep LearningEmotion Recognition	—Unverified
LanSER: Language-Model Supported Speech Emotion Recognition	Sep 7, 2023	Automatic Speech RecognitionEmotion Recognition	—Unverified
Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study on Speech Emotion Recognition	Feb 4, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
learning discriminative features from spectrograms using center loss for speech emotion recognition	Jan 2, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Learning Discriminative features using Center Loss and Reconstruction as Regularizer for Speech Emotion Recognition	Jun 19, 2019	Emotion RecognitionMetric Learning	—Unverified
Learning Emotional Representations from Imbalanced Speech Data for Speech Emotion Recognition and Emotional Text-to-Speech	Jun 9, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Learning More with Less: Self-Supervised Approaches for Low-Resource Speech Emotion Recognition	Jun 1, 2025	Contrastive LearningEmotion Recognition	—Unverified
Learning spectro-temporal features with 3D CNNs for speech emotion recognition	Aug 14, 2017	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Learning Spontaneity to Improve Emotion Recognition In Speech	Dec 12, 2017	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Learning Transferable Features for Speech Emotion Recognition	Dec 23, 2019	Domain AdaptationEmotional Intelligence	—Unverified
Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition	Jan 6, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Leveraging Semantic Information for Efficient Self-Supervised Emotion Recognition with Audio-Textual Distilled Models	May 30, 2023	Emotion RecognitionSelf-Supervised Learning	—Unverified
Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion Recognition	Sep 19, 2023	Data AugmentationEmotion Recognition	—Unverified
LiteLSTM Architecture Based on Weights Sharing for Recurrent Neural Networks	Jan 12, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
MATER: Multi-level Acoustic and Textual Emotion Representation for Interpretable Speech Emotion Recognition	Jun 24, 2025	AttributeEmotion Recognition	—Unverified

Show:10 25 50

← PrevPage 6 of 9Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified