Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 431 papers

Title	Date	Tasks	Status
Contrastive Unsupervised Learning for Speech Emotion Recognition	Feb 12, 2021	Emotion RecognitionRepresentation Learning	—Unverified
Cross Lingual Cross Corpus Speech Emotion Recognition	Mar 18, 2020	Cross-corpusEmotion Recognition	—Unverified
A Transfer Learning Method for Speech Emotion Recognition from Automatic Speech Recognition	Aug 6, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Conditioning LLMs with Emotion in Neural Machine Translation	Aug 6, 2024	Emotion RecognitionMachine Translation	—Unverified
A Layer-Anchoring Strategy for Enhancing Cross-Lingual Speech Emotion Recognition	Jul 6, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
CTA-RNN: Channel and Temporal-wise Attention RNN Leveraging Pre-trained ASR Embeddings for Speech Emotion Recognition	Mar 31, 2022	Cross-corpusEmotion Recognition	—Unverified
A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding	Nov 4, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Curriculum Learning for Speech Emotion Recognition from Crowdsourced Labels	May 25, 2018	Emotion RecognitionMulti-class Classification	—Unverified
Improving Speech Emotion Recognition with Unsupervised Speaking Style Transfer	Nov 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
End-to-End Continuous Speech Emotion Recognition in Real-life Customer Service Call Center Conversations	Oct 2, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Continuous Metric Learning For Transferable Speech Emotion Recognition and Embedding Across Low-resource Languages	Mar 28, 2022	DenoisingEmotion Classification	—Unverified
A Siamese Neural Network with Modified Distance Loss For Transfer Learning in Speech Emotion Recognition	Jun 4, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Deep Implicit Distribution Alignment Networks for Cross-Corpus Speech Emotion Recognition	Feb 17, 2023	Cross-corpusEmotion Recognition	—Unverified
Attentive Convolutional Neural Network based Speech Emotion Recognition: A Study on the Impact of Input Features, Signal Length, and Acted Speech	Jun 2, 2017	Emotion RecognitionMULTI-VIEW LEARNING	—Unverified
Deep Learning for Speech Emotion Recognition: A CNN Approach Utilizing Mel Spectrograms	Mar 25, 2025	Deep LearningEmotion Recognition	—Unverified
deep learning of segment-level feature representation for speech emotion recognition in conversations	Feb 5, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Context-Dependent Domain Adversarial Neural Network for Multimodal Emotion Recognition	Oct 28, 2020	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
Consensus-based Distributed Quantum Kernel Learning for Speech Recognition	Sep 9, 2024	Computational EfficiencyEmotion Recognition	—Unverified
Adversarial Machine Learning And Speech Emotion Recognition: Utilizing Generative Adversarial Networks For Robustness	Oct 24, 2018	Adversarial AttackBIG-bench Machine Learning	—Unverified
Describe Where You Are: Improving Noise-Robustness for Speech Emotion Recognition with Text Description of the Environment	Jul 25, 2024	Emotion RecognitionLanguage Modeling	—Unverified
Describing emotions with acoustic property prompts for speech emotion recognition	Nov 14, 2022	Emotion RecognitionRetrieval	—Unverified
Designing and Evaluating Speech Emotion Recognition Systems: A reality check case study with IEMOCAP	Apr 3, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Developing a High-performance Framework for Speech Emotion Recognition in Naturalistic Conditions Challenge for Emotional Attribute Prediction	Jun 12, 2025	AttributeEmotion Recognition	—Unverified
Disentangling Prosody Representations with Unsupervised Speech Reconstruction	Dec 14, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Domain Adapting Deep Reinforcement Learning for Real-world Speech Emotion Recognition	Jul 7, 2022	Cross-corpusDeep Reinforcement Learning	—Unverified
Domain Adversarial for Acoustic Emotion Recognition	Apr 20, 2018	AttributeEmotion Recognition	—Unverified
EMO-Debias: Benchmarking Gender Debiasing Techniques in Multi-Label Speech Emotion Recognition	Jun 5, 2025	BenchmarkingEmotion Recognition	—Unverified
End-to-End Speech Emotion Recognition: Challenges of Real-Life Emergency Call Centers Data Recordings	Oct 28, 2021	Deep LearningEmotion Recognition	—Unverified
ConcealNet: An End-to-end Neural Network for Packet Loss Concealment in Deep Speech Emotion Recognition	May 15, 2020	Emotion RecognitionPacket Loss Concealment	—Unverified
Are Mamba-based Audio Foundation Models the Best Fit for Non-Verbal Emotion Recognition?	Jun 2, 2025	Emotion RecognitionMamba	—Unverified
CNN-n-GRU: end-to-end speech emotion recognition from raw waveform signal using CNNs and gated recurrent unit networks	Mar 23, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Adversarial Machine Learning And Speech Emotion Recognition: Utilizing Generative Adversarial Networks For Robustness	Nov 28, 2018	Adversarial AttackBIG-bench Machine Learning	—Unverified
1st Place Solution to Odyssey Emotion Recognition Challenge Task1: Tackling Class Imbalance Problem	May 30, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
CNN+LSTM Architecture for Speech Emotion Recognition with Data Augmentation	Feb 15, 2018	Data AugmentationEmotion Recognition	—Unverified
Classifying Emotional Utterances by Employing Multi-modal Speech Emotion Recognition	Dec 1, 2021	Emotion RecognitionGender Classification	—Unverified
Churn Prediction via Multimodal Fusion Learning:Integrating Customer Financial Literacy, Voice, and Behavioral Data	Dec 3, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Characterizing Types of Convolution in Deep Convolutional Recurrent Neural Networks for Robust Speech Emotion Recognition	Jun 7, 2017	Emotion RecognitionEvent Detection	—Unverified
Empirical Interpretation of the Relationship Between Speech Acoustic Context and Emotion Recognition	Jun 30, 2023	Emotional IntelligenceEmotion Recognition	—Unverified
End-to-end transfer learning for speaker-independent cross-language and cross-corpus speech emotion recognition	Nov 22, 2023	Cross-corpusEmotion Recognition	—Unverified
Capturing Spectral and Long-term Contextual Information for Speech Emotion Recognition Using Deep Learning Techniques	Aug 4, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Can We Estimate Purchase Intention Based on Zero-shot Speech Emotion Recognition?	Oct 12, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
A Novel Trajectory-based Spatial-Temporal Spectral Features for Speech Emotion Recognition	Dec 1, 2017	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Can Emotion Fool Anti-spoofing?	May 29, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Adapting WavLM for Speech Emotion Recognition	May 7, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Emotion Recognition in Speech using Cross-Modal Transfer in the Wild	Aug 16, 2018	Emotion RecognitionFacial Emotion Recognition	—Unverified
EMOVO Corpus: an Italian Emotional Speech Database	May 1, 2014	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Biologically inspired speech emotion recognition	Nov 15, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
CAMEO: Collection of Multilingual Emotional Speech Corpora	May 16, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified
EmoFormer: A Text-Independent Speech Emotion Recognition using a Hybrid Transformer-CNN model	Jan 22, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Bimodal Speech Emotion Recognition Using Pre-Trained Language Models	Nov 29, 2019	Emotion RecognitionReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 3 of 9Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified