Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 431 papers

Title	Date	Tasks	Status
CoordViT: A Novel Method of Improve Vision Transformer-Based Speech Emotion Recognition using Coordinate Information Concatenate	Mar 10, 2023	Emotion RecognitionPosition	—Unverified
CopyPaste: An Augmentation Method for Speech Emotion Recognition	Oct 27, 2020	Data AugmentationEmotion Recognition	—Unverified
CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition	Jun 6, 2025	Emotion RecognitionFairness	—Unverified
Cross-Corpus Multilingual Speech Emotion Recognition: Amharic vs. Other Languages	Jul 20, 2023	Cross-corpusEmotion Recognition	—Unverified
Cross-Language Speech Emotion Recognition Using Multimodal Dual Attention Transformers	Jun 23, 2023	Emotion ClassificationEmotion Recognition	—Unverified
Cross-lingual and Multilingual Speech Emotion Recognition on English and French	Mar 1, 2018	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Cross Lingual Cross Corpus Speech Emotion Recognition	Mar 18, 2020	Cross-corpusEmotion Recognition	—Unverified
CTA-RNN: Channel and Temporal-wise Attention RNN Leveraging Pre-trained ASR Embeddings for Speech Emotion Recognition	Mar 31, 2022	Cross-corpusEmotion Recognition	—Unverified
Curriculum Learning for Speech Emotion Recognition from Crowdsourced Labels	May 25, 2018	Emotion RecognitionMulti-class Classification	—Unverified
Improving Speech Emotion Recognition with Unsupervised Speaking Style Transfer	Nov 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Deep Implicit Distribution Alignment Networks for Cross-Corpus Speech Emotion Recognition	Feb 17, 2023	Cross-corpusEmotion Recognition	—Unverified
Deep Learning for Speech Emotion Recognition: A CNN Approach Utilizing Mel Spectrograms	Mar 25, 2025	Deep LearningEmotion Recognition	—Unverified
deep learning of segment-level feature representation for speech emotion recognition in conversations	Feb 5, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Deep Residual Local Feature Learning for Speech Emotion Recognition	Nov 19, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Deep scattering network for speech emotion recognition	May 11, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Describe Where You Are: Improving Noise-Robustness for Speech Emotion Recognition with Text Description of the Environment	Jul 25, 2024	Emotion RecognitionLanguage Modeling	—Unverified
Describing emotions with acoustic property prompts for speech emotion recognition	Nov 14, 2022	Emotion RecognitionRetrieval	—Unverified
Designing and Evaluating Speech Emotion Recognition Systems: A reality check case study with IEMOCAP	Apr 3, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Developing a High-performance Framework for Speech Emotion Recognition in Naturalistic Conditions Challenge for Emotional Attribute Prediction	Jun 12, 2025	AttributeEmotion Recognition	—Unverified
Disentangling Prosody Representations with Unsupervised Speech Reconstruction	Dec 14, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Domain Adapting Deep Reinforcement Learning for Real-world Speech Emotion Recognition	Jul 7, 2022	Cross-corpusDeep Reinforcement Learning	—Unverified
Domain Adversarial for Acoustic Emotion Recognition	Apr 20, 2018	AttributeEmotion Recognition	—Unverified
Double Multi-Head Attention Multimodal System for Odyssey 2024 Speech Emotion Recognition Challenge	Jun 15, 2024	Emotion RecognitionPosition	—Unverified
DSNet: Disentangled Siamese Network with Neutral Calibration for Speech Emotion Recognition	Dec 25, 2023	DisentanglementEmotion Recognition	—Unverified
Dynamic Layer Customization for Noise Robust Speech Emotion Recognition in Heterogeneous Condition Training	Oct 21, 2020	Domain AdaptationEmotion Recognition	—Unverified
標記對於類神經語音情緒辨識系統辨識效果之影響(Effects of Label in Neural Speech Emotion Recognition System)[In Chinese]	Oct 1, 2016	Emotion RecognitionSpeech Emotion Recognition	—Unverified
ED-TTS: Multi-Scale Emotion Modeling using Cross-Domain Emotion Diarization for Emotional Speech Synthesis	Jan 16, 2024	DenoisingEmotional Speech Synthesis	—Unverified
Effect of different splitting criteria on the performance of speech emotion recognition	Oct 26, 2022	Emotion RecognitionSentence	—Unverified
Emo-bias: A Large Scale Evaluation of Social Bias on Speech Emotion Recognition	Jun 7, 2024	Emotion RecognitionSelf-Supervised Learning	—Unverified
EMO-Codec: An In-Depth Look at Emotion Preservation capacity of Legacy and Neural Codec Models With Subjective and Objective Evaluations	Jul 22, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
EmoDiarize: Speaker Diarization and Emotion Identification from Speech Signals using Convolutional Neural Networks	Oct 19, 2023	Data AugmentationEmotion Recognition	—Unverified
EmoFormer: A Text-Independent Speech Emotion Recognition using a Hybrid Transformer-CNN model	Jan 22, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified
EmoTech: A Multi-modal Speech Emotion Recognition Using Multi-source Low-level Information with Hybrid Recurrent Network	Jan 22, 2025	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
Emotion controllable speech synthesis using emotion-unlabeled dataset with the assistance of cross-domain speech emotion recognition	Oct 26, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified
EmotionNAS: Two-stream Neural Architecture Search for Speech Emotion Recognition	Mar 25, 2022	Emotion RecognitionNeural Architecture Search	—Unverified
Emotion Recognition In Persian Speech Using Deep Neural Networks	Apr 28, 2022	BIG-bench Machine LearningEmotion Recognition	—Unverified
Emotion Recognition in Speech using Cross-Modal Transfer in the Wild	Aug 16, 2018	Emotion RecognitionFacial Emotion Recognition	—Unverified
EMOVO Corpus: an Italian Emotional Speech Database	May 1, 2014	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Empirical Analysis of Asynchronous Federated Learning on Heterogeneous Devices: Efficiency, Fairness, and Privacy Trade-offs	May 11, 2025	Emotion RecognitionFairness	—Unverified
Empirical Interpretation of Speech Emotion Perception with Attention Based Model for Speech Emotion Recognition	Oct 28, 2020	Emotional IntelligenceEmotion Recognition	—Unverified
Empirical Interpretation of the Relationship Between Speech Acoustic Context and Emotion Recognition	Jun 30, 2023	Emotional IntelligenceEmotion Recognition	—Unverified
End-to-End Continuous Speech Emotion Recognition in Real-life Customer Service Call Center Conversations	Oct 2, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
End-to-End Speech Emotion Recognition: Challenges of Real-Life Emergency Call Centers Data Recordings	Oct 28, 2021	Deep LearningEmotion Recognition	—Unverified
End-to-end transfer learning for speaker-independent cross-language and cross-corpus speech emotion recognition	Nov 22, 2023	Cross-corpusEmotion Recognition	—Unverified
Enhanced Speech Emotion Recognition with Efficient Channel Attention Guided Deep CNN-BiLSTM Framework	Dec 13, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Enhancing Segment-Based Speech Emotion Recognition by Deep Self-Learning	Mar 30, 2021	Emotion RecognitionSelf-Learning	—Unverified
Enhancing Speech Emotion Recognition through Segmental Average Pooling of Self-Supervised Learning Features	Oct 16, 2024	Emotion RecognitionSelf-Supervised Learning	—Unverified
Enhancing Speech Emotion Recognition with Graph-Based Multimodal Fusion and Prosodic Features for the Speech Emotion Recognition in Naturalistic Conditions Challenge at Interspeech 2025	Jun 2, 2025	Audio TaggingEmotion Recognition	—Unverified
Ensembling Multilingual Pre-Trained Models for Predicting Multi-Label Regression Emotion Share from Speech	Sep 20, 2023	Emotion RecognitionEnsemble Learning	—Unverified
Evaluating raw waveforms with deep learning frameworks for speech emotion recognition	Jul 6, 2023	Emotion RecognitionEnsemble Learning	—Unverified

Show:10 25 50

← PrevPage 8 of 9Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified