Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 431 papers

Title	Date	Tasks	Status
Designing and Evaluating Speech Emotion Recognition Systems: A reality check case study with IEMOCAP	Apr 3, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Describing emotions with acoustic property prompts for speech emotion recognition	Nov 14, 2022	Emotion RecognitionRetrieval	—Unverified
Describe Where You Are: Improving Noise-Robustness for Speech Emotion Recognition with Text Description of the Environment	Jul 25, 2024	Emotion RecognitionLanguage Modeling	—Unverified
Deep scattering network for speech emotion recognition	May 11, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Audio Enhancement for Computer Audition -- An Iterative Training Paradigm Using Sample Importance	Aug 12, 2024	Acoustic Scene ClassificationAutomatic Speech Recognition	—Unverified
A cross-corpus study on speech emotion recognition	Jul 5, 2022	Cross-corpusEmotion Recognition	—Unverified
Deep Residual Local Feature Learning for Speech Emotion Recognition	Nov 19, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified
deep learning of segment-level feature representation for speech emotion recognition in conversations	Feb 5, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Deep Learning for Speech Emotion Recognition: A CNN Approach Utilizing Mel Spectrograms	Mar 25, 2025	Deep LearningEmotion Recognition	—Unverified
Analysis of constant-Q filterbank based representations for speech emotion recognition	Nov 29, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Deep Implicit Distribution Alignment Networks for Cross-Corpus Speech Emotion Recognition	Feb 17, 2023	Cross-corpusEmotion Recognition	—Unverified
Attentive Convolutional Neural Network based Speech Emotion Recognition: A Study on the Impact of Input Features, Signal Length, and Acted Speech	Jun 2, 2017	Emotion RecognitionMULTI-VIEW LEARNING	—Unverified
A Multi-Task, Multi-Modal Approach for Predicting Categorical and Dimensional Emotions	Dec 31, 2023	Emotion RecognitionMulti-Task Learning	—Unverified
A Cross-Corpus Speech Emotion Recognition Method Based on Supervised Contrastive Learning	Nov 25, 2024	Contrastive LearningCross-corpus	—Unverified
Improving Speech Emotion Recognition with Unsupervised Speaking Style Transfer	Nov 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Curriculum Learning for Speech Emotion Recognition from Crowdsourced Labels	May 25, 2018	Emotion RecognitionMulti-class Classification	—Unverified
Attention-based Region of Interest (ROI) Detection for Speech Emotion Recognition	Mar 3, 2022	Emotion RecognitionMulti-class Classification	—Unverified
CTA-RNN: Channel and Temporal-wise Attention RNN Leveraging Pre-trained ASR Embeddings for Speech Emotion Recognition	Mar 31, 2022	Cross-corpusEmotion Recognition	—Unverified
A Transfer Learning Method for Speech Emotion Recognition from Automatic Speech Recognition	Aug 6, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Layer-Anchoring Strategy for Enhancing Cross-Lingual Speech Emotion Recognition	Jul 6, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Acoustic-to-articulatory Speech Inversion with Multi-task Learning	May 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Cross Lingual Cross Corpus Speech Emotion Recognition	Mar 18, 2020	Cross-corpusEmotion Recognition	—Unverified
Cross-lingual and Multilingual Speech Emotion Recognition on English and French	Mar 1, 2018	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Cross-Language Speech Emotion Recognition Using Multimodal Dual Attention Transformers	Jun 23, 2023	Emotion ClassificationEmotion Recognition	—Unverified
A Survey on Speech Large Language Models	Oct 24, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
AHD ConvNet for Speech Emotion Classification	Jun 10, 2022	ClassificationEmotion Classification	—Unverified
Cross-Corpus Multilingual Speech Emotion Recognition: Amharic vs. Other Languages	Jul 20, 2023	Cross-corpusEmotion Recognition	—Unverified
GMP-TL: Gender-augmented Multi-scale Pseudo-label Enhanced Transfer Learning for Speech Emotion Recognition	May 3, 2024	Emotion RecognitionMulti-Task Learning	—Unverified
CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition	Jun 6, 2025	Emotion RecognitionFairness	—Unverified
Gaussian-smoothed Imbalance Data Improves Speech Emotion Recognition	Feb 17, 2023	Data AugmentationEmotion Recognition	—Unverified
FSER: Deep Convolutional Neural Networks for Speech Emotion Recognition	Sep 15, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
CopyPaste: An Augmentation Method for Speech Emotion Recognition	Oct 27, 2020	Data AugmentationEmotion Recognition	—Unverified
A study on cross-corpus speech emotion recognition and data augmentation	Jan 10, 2022	Cross-corpusData Augmentation	—Unverified
A Graph Isomorphism Network with Weighted Multiple Aggregators for Speech Emotion Recognition	Jul 3, 2022	Emotion RecognitionGraph Neural Network	—Unverified
A Comparative Study of Pre-trained Speech and Audio Embeddings for Speech Emotion Recognition	Apr 22, 2023	Emotion RecognitionSpeaker Recognition	—Unverified
Conditioning LLMs with Emotion in Neural Machine Translation	Aug 6, 2024	Emotion RecognitionMachine Translation	—Unverified
Forewords	Dec 1, 2017	Emotion RecognitionIntent Classification	—Unverified
CoordViT: A Novel Method of Improve Vision Transformer-Based Speech Emotion Recognition using Coordinate Information Concatenate	Mar 10, 2023	Emotion RecognitionPosition	—Unverified
Focal Loss based Residual Convolutional Neural Network for Speech Emotion Recognition	Jun 11, 2019	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Convolutional and Recurrent Neural Networks for Spoken Emotion Recognition	Dec 1, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified
ASR and Emotional Speech: A Word-Level Investigation of the Mutual Impact of Speech and Emotion Recognition	May 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Fusing ASR Outputs in Joint Training for Speech Emotion Recognition	Oct 29, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Converting Anyone's Voice: End-to-End Expressive Voice Conversion with a Conditional Diffusion Model	May 2, 2024	DenoisingEmotion Recognition	—Unverified
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition	Jun 13, 2023	AttributeContrastive Learning	—Unverified
Feature Selection Enhancement and Feature Space Visualization for Speech-Based Emotion Recognition	Aug 19, 2022	Emotion Recognitionfeature selection	—Unverified
Contrastive Unsupervised Learning for Speech Emotion Recognition	Feb 12, 2021	Emotion RecognitionRepresentation Learning	—Unverified
Heterogeneous bimodal attention fusion for speech emotion recognition	Mar 9, 2025	Contrastive LearningEmotion Recognition	—Unverified
Are Paralinguistic Representations all that is needed for Speech Emotion Recognition?	Feb 2, 2024	AllEmotion Recognition	—Unverified
Hybrid Data Augmentation and Deep Attention-based Dilated Convolutional-Recurrent Neural Networks for Speech Emotion Recognition	Sep 18, 2021	Data AugmentationDeep Attention	—Unverified
A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding	Nov 4, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified

Show:10 25 50

← PrevPage 4 of 9Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified