Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 431 papers

Title	Date	Tasks	Status
Prompting Audios Using Acoustic Properties For Emotion Representation	Oct 3, 2023	Contrastive LearningDiversity	—Unverified
End-to-End Continuous Speech Emotion Recognition in Real-life Customer Service Call Center Conversations	Oct 2, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Active Learning Based Fine-Tuning Framework for Speech Emotion Recognition	Sep 30, 2023	Active LearningEmotion Recognition	—Unverified
Unsupervised Representations Improve Supervised Learning in Speech Emotion Recognition	Sep 22, 2023	Emotion ClassificationEmotion Recognition	—Unverified
The Broad Impact of Feature Imitation: Neural Enhancements Across Financial, Speech, and Physiological Domains	Sep 21, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Ensembling Multilingual Pre-Trained Models for Predicting Multi-Label Regression Emotion Share from Speech	Sep 20, 2023	Emotion RecognitionEnsemble Learning	—Unverified
Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion Recognition	Sep 19, 2023	Data AugmentationEmotion Recognition	—Unverified
Speech Emotion Recognition with Distilled Prosodic and Linguistic Affect Representations	Sep 9, 2023	Emotion RecognitionKnowledge Distillation	—Unverified
LanSER: Language-Model Supported Speech Emotion Recognition	Sep 7, 2023	Automatic Speech RecognitionEmotion Recognition	—Unverified
Personalized Adaptation with Pre-trained Speech Encoders for Continuous Emotion Recognition	Sep 5, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
MSM-VC: High-fidelity Source Style Transfer for Non-Parallel Voice Conversion by Multi-scale Style Modeling	Sep 3, 2023	Data AugmentationDisentanglement	—Unverified
Noise robust speech emotion recognition with signal-to-noise ratio adapting speech enhancement	Sep 3, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Supervised Contrastive Learning with Nearest Neighbor Search for Speech Emotion Recognition	Aug 31, 2023	Contrastive LearningEmotion Recognition	—Unverified
Multiscale Contextual Learning for Speech Emotion Recognition in Emergency Call Center Conversations	Aug 28, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Decoding Emotions: A comprehensive Multilingual Study of Speech Models for Speech Emotion Recognition	Aug 17, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition	Aug 8, 2023	AttributeCross-corpus	—Unverified
"We care": Improving Code Mixed Speech Emotion Recognition in Customer-Care Conversations	Aug 6, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Capturing Spectral and Long-term Contextual Information for Speech Emotion Recognition Using Deep Learning Techniques	Aug 4, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
A Change of Heart: Improving Speech Emotion Recognition through Speech-to-Text Modality Conversion	Jul 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Cross-Corpus Multilingual Speech Emotion Recognition: Amharic vs. Other Languages	Jul 20, 2023	Cross-corpusEmotion Recognition	—Unverified
Evaluating raw waveforms with deep learning frameworks for speech emotion recognition	Jul 6, 2023	Emotion RecognitionEnsemble Learning	—Unverified
Empirical Interpretation of the Relationship Between Speech Acoustic Context and Emotion Recognition	Jun 30, 2023	Emotional IntelligenceEmotion Recognition	—Unverified
Cross-Language Speech Emotion Recognition Using Multimodal Dual Attention Transformers	Jun 23, 2023	Emotion ClassificationEmotion Recognition	—Unverified
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition	Jun 13, 2023	AttributeContrastive Learning	—Unverified
Exploring Attention Mechanisms for Multimodal Emotion Recognition in an Emergency Call Center Corpus	Jun 12, 2023	Decision MakingEmotion Recognition	—Unverified
MFSN: Multi-perspective Fusion Search Network For Pre-training Knowledge in Speech Emotion Recognition	Jun 12, 2023	Emotion RecognitionQuantization	—Unverified
Learning Emotional Representations from Imbalanced Speech Data for Speech Emotion Recognition and Emotional Text-to-Speech	Jun 9, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Leveraging Semantic Information for Efficient Self-Supervised Emotion Recognition with Audio-Textual Distilled Models	May 30, 2023	Emotion RecognitionSelf-Supervised Learning	—Unverified
Transforming the Embeddings: A Lightweight Technique for Speech Emotion Recognition Tasks	May 29, 2023	Emotion RecognitionSpeaker Recognition	—Unverified
Transfer Learning for Personality Perception via Speech Emotion Recognition	May 25, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
ASR and Emotional Speech: A Word-Level Investigation of the Mutual Impact of Speech and Emotion Recognition	May 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion and Automatic Speech Recognition	May 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Versatile audio-visual learning for emotion recognition	May 12, 2023	Arousal EstimationAttribute	—Unverified
Learning Robust Self-attention Features for Speech Emotion Recognition with Label-adaptive Mixup	May 7, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
A vector quantized masked autoencoder for audiovisual speech emotion recognition	May 5, 2023	Contrastive LearningEmotion Recognition	—Unverified
A multimodal dynamical variational autoencoder for audiovisual speech representation learning	May 5, 2023	DenoisingDisentanglement	CodeCode Available
A Comparative Study of Pre-trained Speech and Audio Embeddings for Speech Emotion Recognition	Apr 22, 2023	Emotion RecognitionSpeaker Recognition	—Unverified
An Empirical Study and Improvement for Speech Emotion Recognition	Apr 8, 2023	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
Designing and Evaluating Speech Emotion Recognition Systems: A reality check case study with IEMOCAP	Apr 3, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
CNN-n-GRU: end-to-end speech emotion recognition from raw waveform signal using CNNs and gated recurrent unit networks	Mar 23, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
CoordViT: A Novel Method of Improve Vision Transformer-Based Speech Emotion Recognition using Coordinate Information Concatenate	Mar 10, 2023	Emotion RecognitionPosition	—Unverified
A low latency attention module for streaming self-supervised speech representation learning	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Gaussian-smoothed Imbalance Data Improves Speech Emotion Recognition	Feb 17, 2023	Data AugmentationEmotion Recognition	—Unverified
Deep Implicit Distribution Alignment Networks for Cross-Corpus Speech Emotion Recognition	Feb 17, 2023	Cross-corpusEmotion Recognition	—Unverified
Audio Representation Learning by Distilling Video as Privileged Information	Feb 6, 2023	Emotion RecognitionKnowledge Distillation	—Unverified
deep learning of segment-level feature representation for speech emotion recognition in conversations	Feb 5, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Modulation spectral features for speech emotion recognition using deep neural networks	Jan 14, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
LiteLSTM Architecture Based on Weights Sharing for Recurrent Neural Networks	Jan 12, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
A speech corpus of Quechua Collao for automatic dimensional emotion recognition	Dec 24, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
Leveraging Pre-Trained Acoustic Feature Extractor For Affective Vocal Bursts Tasks	Dec 21, 2022	Emotion Recognitionregression	CodeCode Available

Show:10 25 50

← PrevPage 5 of 9Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified