Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–125 of 431 papers

Title	Date	Tasks	Status	Score
CochCeps-Augment: A Novel Self-Supervised Contrastive Learning Using Cochlear Cepstrum-based Masking for Speech Emotion Recognition	Feb 10, 2024	Contrastive LearningEmotion Recognition	CodeCode Available	5
A Systematic Evaluation of Adversarial Attacks against Speech Emotion Recognition Models	Apr 29, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	5
Cross-Lingual Speech Emotion Recognition: Humans vs. Self-Supervised Models	Sep 25, 2024	Emotion Recognitionparameter-efficient fine-tuning	CodeCode Available	5
Cross Lingual Speech Emotion Recognition: Urdu vs. Western Languages	Dec 15, 2018	Cross-corpusEmotion Recognition	CodeCode Available	5
Multi-modal Speech Emotion Recognition via Feature Distribution Adaptation Network	Oct 29, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	5
Attention-Augmented End-to-End Multi-Task Learning for Emotion Prediction from Speech	Mar 29, 2019	Emotion RecognitionMulti-Task Learning	CodeCode Available	5
CTL-MTNet: A Novel CapsNet and Transfer Learning-Based Mixed Task Net for the Single-Corpus and Cross-Corpus Speech Emotion Recognition	Jul 18, 2022	Cross-corpusEmotion Recognition	CodeCode Available	5
Attention Based Fully Convolutional Network for Speech Emotion Recognition	Jun 5, 2018	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	5
Fine-grained Speech Sentiment Analysis in Chinese Psychological Support Hotlines Based on Large-scale Pre-trained Model	May 7, 2024	Emotion RecognitionMulti-Label Classification	CodeCode Available	5
Explaining Deep Learning Embeddings for Speech Emotion Recognition by Predicting Interpretable Acoustic Features	Sep 14, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	5
Exploring Multilingual Unseen Speaker Emotion Recognition: Leveraging Co-Attention Cues in Multitask Learning	Jun 13, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	5
ExHuBERT: Enhancing HuBERT Through Block Extension and Fine-Tuning on 37 Emotion Datasets	Jun 11, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	5
ABHINAYA -- A System for Speech Emotion Recognition In Naturalistic Conditions Challenge	May 23, 2025	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	5
Deep Learning based Emotion Recognition System Using Speech Features and Transcriptions	Jun 11, 2019	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	5
Fixed-MAML for Few Shot Classification in Multilingual Speech Emotion Recognition	Jan 5, 2021	Emotion RecognitionFew-Shot Learning	CodeCode Available	5
Label Uncertainty Modeling and Prediction for Speech Emotion Recognition using t-Distributions	Jul 25, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	5
End-To-End Label Uncertainty Modeling for Speech-based Arousal Recognition Using Bayesian Neural Networks	Oct 7, 2021	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	5
End-to-End Label Uncertainty Modeling in Speech Emotion Recognition using Bayesian Neural Networks and Label Distribution Learning	Sep 30, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	5
A novel policy for pre-trained Deep Reinforcement Learning for Speech Emotion Recognition	Jan 4, 2021	Cross-corpusDeep Reinforcement Learning	CodeCode Available	5
BSC-UPC at EmoSPeech-IberLEF2024: Attention Pooling for Emotion Recognition	Jul 17, 2024	Emotion RecognitionPosition	CodeCode Available	5
Emotional Vietnamese Speech-Based Depression Diagnosis Using Dynamic Attention Mechanism	Dec 11, 2024	Speech Emotion Recognition	CodeCode Available	5
Self-supervised Graphs for Audio Representation Learning with Limited Labeled Data	Jan 31, 2022	Emotion RecognitionEvent Detection	CodeCode Available	5
Enrolment-based personalisation for improving individual-level fairness in speech emotion recognition	Jun 10, 2024	Emotion RecognitionFairness	CodeCode Available	5
An Interaction-aware Attention Network for Speech Emotion Recognition in Spoken Dialogs	Apr 17, 2019	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	5
Active Learning with Task Adaptation Pre-training for Speech Emotion Recognition	May 1, 2024	Active LearningEmotion Recognition	CodeCode Available	5

Show:10 25 50

← PrevPage 5 of 18Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified