Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 431 papers

Title	Date	Tasks	Status
A Novel Trajectory-based Spatial-Temporal Spectral Features for Speech Emotion Recognition	Dec 1, 2017	Emotion RecognitionSpeech Emotion Recognition	—Unverified
EmotionNAS: Two-stream Neural Architecture Search for Speech Emotion Recognition	Mar 25, 2022	Emotion RecognitionNeural Architecture Search	—Unverified
Emotion controllable speech synthesis using emotion-unlabeled dataset with the assistance of cross-domain speech emotion recognition	Oct 26, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Can Emotion Fool Anti-spoofing?	May 29, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Adapting WavLM for Speech Emotion Recognition	May 7, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Emotion Recognition In Persian Speech Using Deep Neural Networks	Apr 28, 2022	BIG-bench Machine LearningEmotion Recognition	—Unverified
Emotion Recognition in Speech using Cross-Modal Transfer in the Wild	Aug 16, 2018	Emotion RecognitionFacial Emotion Recognition	—Unverified
EMOVO Corpus: an Italian Emotional Speech Database	May 1, 2014	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Improving Speech-based Emotion Recognition with Contextual Utterance Analysis and LLMs	Oct 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Empirical Interpretation of Speech Emotion Perception with Attention Based Model for Speech Emotion Recognition	Oct 28, 2020	Emotional IntelligenceEmotion Recognition	—Unverified
Improving Speech Emotion Recognition Through Focus and Calibration Attention Mechanisms	Aug 21, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
End-to-End Continuous Speech Emotion Recognition in Real-life Customer Service Call Center Conversations	Oct 2, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
EmoTech: A Multi-modal Speech Emotion Recognition Using Multi-source Low-level Information with Hybrid Recurrent Network	Jan 22, 2025	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
Classifying Emotional Utterances by Employing Multi-modal Speech Emotion Recognition	Dec 1, 2021	Emotion RecognitionGender Classification	—Unverified
End-to-End Speech Emotion Recognition: Challenges of Real-Life Emergency Call Centers Data Recordings	Oct 28, 2021	Deep LearningEmotion Recognition	—Unverified
End-to-end transfer learning for speaker-independent cross-language and cross-corpus speech emotion recognition	Nov 22, 2023	Cross-corpusEmotion Recognition	—Unverified
Biologically inspired speech emotion recognition	Nov 15, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Enhancing Segment-Based Speech Emotion Recognition by Deep Self-Learning	Mar 30, 2021	Emotion RecognitionSelf-Learning	—Unverified
Enhancing Speech Emotion Recognition through Segmental Average Pooling of Self-Supervised Learning Features	Oct 16, 2024	Emotion RecognitionSelf-Supervised Learning	—Unverified
Enhancing Speech Emotion Recognition with Graph-Based Multimodal Fusion and Prosodic Features for the Speech Emotion Recognition in Naturalistic Conditions Challenge at Interspeech 2025	Jun 2, 2025	Audio TaggingEmotion Recognition	—Unverified
CAMEO: Collection of Multilingual Emotional Speech Corpora	May 16, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Ensembling Multilingual Pre-Trained Models for Predicting Multi-Label Regression Emotion Share from Speech	Sep 20, 2023	Emotion RecognitionEnsemble Learning	—Unverified
ConcealNet: An End-to-end Neural Network for Packet Loss Concealment in Deep Speech Emotion Recognition	May 15, 2020	Emotion RecognitionPacket Loss Concealment	—Unverified
Evaluating raw waveforms with deep learning frameworks for speech emotion recognition	Jul 6, 2023	Emotion RecognitionEnsemble Learning	—Unverified
EmoFormer: A Text-Independent Speech Emotion Recognition using a Hybrid Transformer-CNN model	Jan 22, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Consensus-based Distributed Quantum Kernel Learning for Speech Recognition	Sep 9, 2024	Computational EfficiencyEmotion Recognition	—Unverified
Context-Dependent Domain Adversarial Neural Network for Multimodal Emotion Recognition	Oct 28, 2020	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
Exploring Attention Mechanisms for Multimodal Emotion Recognition in an Emergency Call Center Corpus	Jun 12, 2023	Decision MakingEmotion Recognition	—Unverified
Bimodal Speech Emotion Recognition Using Pre-Trained Language Models	Nov 29, 2019	Emotion RecognitionReinforcement Learning	—Unverified
EmoDiarize: Speaker Diarization and Emotion Identification from Speech Signals using Convolutional Neural Networks	Oct 19, 2023	Data AugmentationEmotion Recognition	—Unverified
Bimodal Connection Attention Fusion for Speech Emotion Recognition	Mar 8, 2025	DecoderEmotion Recognition	—Unverified
Expressive Voice Conversion: A Joint Framework for Speaker Identity and Emotional Style Transfer	Jul 8, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Accounting for Variations in Speech Emotion Recognition with Nonparametric Hierarchical Neural Network	Sep 9, 2021	ClusteringCross-corpus	—Unverified
Feature Selection Enhancement and Feature Space Visualization for Speech-Based Emotion Recognition	Aug 19, 2022	Emotion Recognitionfeature selection	—Unverified
Improving Speaker-independent Speech Emotion Recognition Using Dynamic Joint Distribution Adaptation	Jan 18, 2024	Domain AdaptationEmotion Recognition	—Unverified
LanSER: Language-Model Supported Speech Emotion Recognition	Sep 7, 2023	Automatic Speech RecognitionEmotion Recognition	—Unverified
Convolutional and Recurrent Neural Networks for Spoken Emotion Recognition	Dec 1, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Focal Loss based Residual Convolutional Neural Network for Speech Emotion Recognition	Jun 11, 2019	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Forewords	Dec 1, 2017	Emotion RecognitionIntent Classification	—Unverified
Improving speech emotion recognition via Transformer-based Predictive Coding through transfer learning	Nov 11, 2018	Emotion RecognitionSpeech Emotion Recognition	—Unverified
EMO-Codec: An In-Depth Look at Emotion Preservation capacity of Legacy and Neural Codec Models With Subjective and Objective Evaluations	Jul 22, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Fusing ASR Outputs in Joint Training for Speech Emotion Recognition	Oct 29, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition	Sep 27, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition	Jun 13, 2023	AttributeContrastive Learning	—Unverified
GMP-TL: Gender-augmented Multi-scale Pseudo-label Enhanced Transfer Learning for Speech Emotion Recognition	May 3, 2024	Emotion RecognitionMulti-Task Learning	—Unverified
Emo-bias: A Large Scale Evaluation of Social Bias on Speech Emotion Recognition	Jun 7, 2024	Emotion RecognitionSelf-Supervised Learning	—Unverified
Heterogeneous bimodal attention fusion for speech emotion recognition	Mar 9, 2025	Contrastive LearningEmotion Recognition	—Unverified
Are Paralinguistic Representations all that is needed for Speech Emotion Recognition?	Feb 2, 2024	AllEmotion Recognition	—Unverified
Hybrid Data Augmentation and Deep Attention-based Dilated Convolutional-Recurrent Neural Networks for Speech Emotion Recognition	Sep 18, 2021	Data AugmentationDeep Attention	—Unverified
Beyond Isolated Utterances: Conversational Emotion Recognition	Sep 13, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified

Show:10 25 50

← PrevPage 4 of 9Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified