Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 126–150 of 431 papers

Title	Date	Tasks	Status
Domain Adversarial for Acoustic Emotion Recognition	Apr 20, 2018	AttributeEmotion Recognition	—Unverified
EMO-Debias: Benchmarking Gender Debiasing Techniques in Multi-Label Speech Emotion Recognition	Jun 5, 2025	BenchmarkingEmotion Recognition	—Unverified
End-to-End Speech Emotion Recognition: Challenges of Real-Life Emergency Call Centers Data Recordings	Oct 28, 2021	Deep LearningEmotion Recognition	—Unverified
ConcealNet: An End-to-end Neural Network for Packet Loss Concealment in Deep Speech Emotion Recognition	May 15, 2020	Emotion RecognitionPacket Loss Concealment	—Unverified
Are Mamba-based Audio Foundation Models the Best Fit for Non-Verbal Emotion Recognition?	Jun 2, 2025	Emotion RecognitionMamba	—Unverified
CNN-n-GRU: end-to-end speech emotion recognition from raw waveform signal using CNNs and gated recurrent unit networks	Mar 23, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Adversarial Machine Learning And Speech Emotion Recognition: Utilizing Generative Adversarial Networks For Robustness	Nov 28, 2018	Adversarial AttackBIG-bench Machine Learning	—Unverified
1st Place Solution to Odyssey Emotion Recognition Challenge Task1: Tackling Class Imbalance Problem	May 30, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
CNN+LSTM Architecture for Speech Emotion Recognition with Data Augmentation	Feb 15, 2018	Data AugmentationEmotion Recognition	—Unverified
Classifying Emotional Utterances by Employing Multi-modal Speech Emotion Recognition	Dec 1, 2021	Emotion RecognitionGender Classification	—Unverified
Churn Prediction via Multimodal Fusion Learning:Integrating Customer Financial Literacy, Voice, and Behavioral Data	Dec 3, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Characterizing Types of Convolution in Deep Convolutional Recurrent Neural Networks for Robust Speech Emotion Recognition	Jun 7, 2017	Emotion RecognitionEvent Detection	—Unverified
Empirical Interpretation of the Relationship Between Speech Acoustic Context and Emotion Recognition	Jun 30, 2023	Emotional IntelligenceEmotion Recognition	—Unverified
End-to-end transfer learning for speaker-independent cross-language and cross-corpus speech emotion recognition	Nov 22, 2023	Cross-corpusEmotion Recognition	—Unverified
Capturing Spectral and Long-term Contextual Information for Speech Emotion Recognition Using Deep Learning Techniques	Aug 4, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Can We Estimate Purchase Intention Based on Zero-shot Speech Emotion Recognition?	Oct 12, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
A Novel Trajectory-based Spatial-Temporal Spectral Features for Speech Emotion Recognition	Dec 1, 2017	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Can Emotion Fool Anti-spoofing?	May 29, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Adapting WavLM for Speech Emotion Recognition	May 7, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Emotion Recognition in Speech using Cross-Modal Transfer in the Wild	Aug 16, 2018	Emotion RecognitionFacial Emotion Recognition	—Unverified
EMOVO Corpus: an Italian Emotional Speech Database	May 1, 2014	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Biologically inspired speech emotion recognition	Nov 15, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
CAMEO: Collection of Multilingual Emotional Speech Corpora	May 16, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified
EmoFormer: A Text-Independent Speech Emotion Recognition using a Hybrid Transformer-CNN model	Jan 22, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Bimodal Speech Emotion Recognition Using Pre-Trained Language Models	Nov 29, 2019	Emotion RecognitionReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 6 of 18Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified