Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 376–400 of 431 papers

Title	Date	Tasks	Status
A Systematic Evaluation of Adversarial Attacks against Speech Emotion Recognition Models	Apr 29, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
An Interaction-aware Attention Network for Speech Emotion Recognition in Spoken Dialogs	Apr 17, 2019	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
Pretrained audio neural networks for Speech emotion recognition in Portuguese	Oct 26, 2022	Data AugmentationEmotion Recognition	CodeCode Available
CochCeps-Augment: A Novel Self-Supervised Contrastive Learning Using Cochlear Cepstrum-based Masking for Speech Emotion Recognition	Feb 10, 2024	Contrastive LearningEmotion Recognition	CodeCode Available
Pre-trained Speech Processing Models Contain Human-Like Biases that Propagate to Speech Emotion Recognition	Oct 29, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
An Improved StarGAN for Emotional Voice Conversion: Enhancing Voice Quality and Data Augmentation	Jul 18, 2021	Data AugmentationEmotion Recognition	CodeCode Available
BSC-UPC at EmoSPeech-IberLEF2024: Attention Pooling for Emotion Recognition	Jul 17, 2024	Emotion RecognitionPosition	CodeCode Available
Unsupervised Cross-Lingual Speech Emotion Recognition Using Pseudo Multilabel	Aug 19, 2021	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
Multimodal Speech Emotion Recognition and Ambiguity Resolution	Apr 12, 2019	BIG-bench Machine LearningEmotion Recognition	CodeCode Available
Multimodal Speech Emotion Recognition Using Audio and Text	Oct 10, 2018	Emotion ClassificationEmotion Recognition	CodeCode Available
Dynamic Parameter Memory: Temporary LoRA-Enhanced LLM for Long-Sequence Emotion Recognition in Conversation	Jul 11, 2025	4kEmotion Recognition	CodeCode Available
Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection	Sep 17, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
A Change of Heart: Improving Speech Emotion Recognition through Speech-to-Text Modality Conversion	Jul 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Improving Speech Emotion Recognition Through Cross Modal Attention Alignment and Balanced Stacking Model	May 26, 2025	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
A speech corpus of Quechua Collao for automatic dimensional emotion recognition	Dec 24, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
An Extended Variational Mode Decomposition Algorithm Developed Speech Emotion Recognition Performance	Dec 18, 2023	Emotion RecognitionSentiment Analysis	CodeCode Available
Integrating Recurrence Dynamics for Speech Emotion Recognition	Nov 9, 2018	Emotion RecognitionEmotion Recognition in Conversation	CodeCode Available
INTERSPEECH 2009 Emotion Challenge Revisited: Benchmarking 15 Years of Progress in Speech Emotion Recognition	Jun 10, 2024	BenchmarkingEmotion Recognition	CodeCode Available
Are you sure? Analysing Uncertainty Quantification Approaches for Real-world Speech Emotion Recognition	Jul 1, 2024	Emotion RecognitionPrediction	CodeCode Available
A Speech Representation Anonymization Framework via Selective Noise Perturbation	Mar 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Analysis of Self-Supervised Learning and Dimensionality Reduction Methods in Clustering-Based Active Learning for Speech Emotion Recognition	Jun 21, 2022	Active LearningClustering	CodeCode Available
Unveiling Hidden Factors: Explainable AI for Feature Boosting in Speech Emotion Recognition	Jun 1, 2024	Emotion Recognitionfeature selection	CodeCode Available
Is Everything Fine, Grandma? Acoustic and Linguistic Modeling for Robust Elderly Speech Emotion Recognition	Sep 7, 2020	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
A multimodal dynamical variational autoencoder for audiovisual speech representation learning	May 5, 2023	DenoisingDisentanglement	CodeCode Available
nEMO: Dataset of Emotional Speech in Polish	Apr 9, 2024	Audio ClassificationEmotion Recognition	CodeCode Available

Show:10 25 50

← PrevPage 16 of 18Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified