Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 276–300 of 431 papers

Title	Date	Tasks	Status
Unifying the Discrete and Continuous Emotion labels for Speech Emotion Recognition	Oct 29, 2022	Emotion RecognitionMulti-Task Learning	—Unverified
Unsupervised Cross-Lingual Speech Emotion Recognition Using DomainAdversarial Neural Network	Dec 21, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Unsupervised low-rank representations for speech emotion recognition	Apr 14, 2021	Dimensionality ReductionEmotion Recognition	—Unverified
Unsupervised Personalization of an Emotion Recognition System: The Unique Properties of the Externalization of Valence in Speech	Jan 19, 2022	Emotion RecognitionPrediction	—Unverified
Unsupervised Representation Learning with Future Observation Prediction for Speech Emotion Recognition	Oct 24, 2019	Emotion RecognitionRepresentation Learning	—Unverified
Unsupervised Representations Improve Supervised Learning in Speech Emotion Recognition	Sep 22, 2023	Emotion ClassificationEmotion Recognition	—Unverified
Usefulness of Emotional Prosody in Neural Machine Translation	Apr 27, 2024	Emotion RecognitionMachine Translation	—Unverified
Utilizing Speech Emotion Recognition and Recommender Systems for Negative Emotion Handling in Therapy Chatbots	Nov 18, 2023	ChatbotEmotion Recognition	—Unverified
Variational Autoencoders for Learning Latent Representations of Speech Emotion: A Preliminary Study	Dec 23, 2017	Emotion ClassificationEmotion Recognition	—Unverified
Versatile audio-visual learning for emotion recognition	May 12, 2023	Arousal EstimationAttribute	—Unverified
Visually Guided Self Supervised Learning of Speech Representations	Jan 13, 2020	Emotion RecognitionRepresentation Learning	—Unverified
WavFusion: Towards wav2vec 2.0 Multimodal Speech Emotion Recognition	Dec 7, 2024	DiversityEmotion Recognition	—Unverified
"We care": Improving Code Mixed Speech Emotion Recognition in Customer-Care Conversations	Aug 6, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
What Does it Take to Generalize SER Model Across Datasets? A Comprehensive Benchmark	Jun 14, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
1st Place Solution to Odyssey Emotion Recognition Challenge Task1: Tackling Class Imbalance Problem	May 30, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Conditioning LLMs with Emotion in Neural Machine Translation	Aug 6, 2024	Emotion RecognitionMachine Translation	—Unverified
CAMEO: Collection of Multilingual Emotional Speech Corpora	May 16, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified
EMO-Debias: Benchmarking Gender Debiasing Techniques in Multi-Label Speech Emotion Recognition	Jun 5, 2025	BenchmarkingEmotion Recognition	—Unverified
A breakthrough in Speech emotion recognition using Deep Retinal Convolution Neural Networks	Jul 12, 2017	Data AugmentationEmotion Recognition	—Unverified
Accounting for Variations in Speech Emotion Recognition with Nonparametric Hierarchical Neural Network	Sep 9, 2021	ClusteringCross-corpus	—Unverified
A Comparative Study of Pre-trained Speech and Audio Embeddings for Speech Emotion Recognition	Apr 22, 2023	Emotion RecognitionSpeaker Recognition	—Unverified
Acoustic-to-articulatory Speech Inversion with Multi-task Learning	May 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Cross-Corpus Speech Emotion Recognition Method Based on Supervised Contrastive Learning	Nov 25, 2024	Contrastive LearningCross-corpus	—Unverified
A cross-corpus study on speech emotion recognition	Jul 5, 2022	Cross-corpusEmotion Recognition	—Unverified
A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition	Oct 6, 2024	Domain AdaptationEmotion Recognition	—Unverified

Show:10 25 50

← PrevPage 12 of 18Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified