Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 431 papers

Title	Date	Tasks	Status
SpeechEQ: Speech Emotion Recognition based on Multi-scale Unified Datasets and Multitask Learning	Jun 27, 2022	Emotion RecognitionPhoneme Recognition	—Unverified
Speech Swin-Transformer: Exploring a Hierarchical Transformer with Shifted Windows for Speech Emotion Recognition	Jan 19, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
STAA-Net: A Sparse and Transferable Adversarial Attack for Speech Emotion Recognition	Feb 2, 2024	Adversarial AttackEmotion Recognition	—Unverified
Stimulus Modality Matters: Impact of Perceptual Evaluations from Different Modalities on Speech Emotion Recognition System Performance	Sep 16, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Study on Feature Subspace of Archetypal Emotions for Speech Emotion Recognition	Nov 17, 2016	Emotion RecognitionGeneral Classification	—Unverified
Supervised Contrastive Learning with Nearest Neighbor Search for Speech Emotion Recognition	Aug 31, 2023	Contrastive LearningEmotion Recognition	—Unverified
Support Super-Vector Machines in Automatic Speech Emotion Recognition	Oct 1, 2016	Emotion RecognitionSpeech Emotion Recognition	—Unverified
SyntAct: A Synthesized Database of Basic Emotions	Jun 1, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
TemporalAugmenter: An Ensemble Recurrent Based Deep Learning Approach for Signal Classification	Jan 13, 2024	Data IntegrationEmotion Recognition	—Unverified
Testing Correctness, Fairness, and Robustness of Speech Emotion Recognition Models	Dec 11, 2023	Emotion RecognitionFairness	—Unverified
The Broad Impact of Feature Imitation: Neural Enhancements Across Financial, Speech, and Physiological Domains	Sep 21, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
The NeurIPS 2023 Machine Learning for Audio Workshop: Affective Audio Benchmarks and Novel Data	Mar 21, 2024	Emotion RecognitionEvent Detection	—Unverified
The Role of Phonetic Units in Speech Emotion Recognition	Aug 2, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Toward end-to-end interpretable convolutional neural networks for waveform signals	May 3, 2024	BenchmarkingEmotion Recognition	—Unverified
Towards adversarial learning of speaker-invariant representation for speech emotion recognition	Mar 22, 2019	ClassificationEmotion Classification	—Unverified
Towards Interpretable and Transferable Speech Emotion Recognition: Latent Representation Based Analysis of Features, Methods and Corpora	May 5, 2021	ClusteringDecision Making	—Unverified
Towards Machine Unlearning for Paralinguistic Speech Processing	Jun 2, 2025	Depression DetectionEmotion Recognition	—Unverified
Towards Speech Emotion Recognition "in the wild" using Aggregated Corpora and Deep Multi-Task Learning	Aug 13, 2017	Cross-corpusEmotion Recognition	—Unverified
Towards Transferable Speech Emotion Representation: On loss functions for cross-lingual latent representations	Mar 28, 2022	ClassificationDenoising	—Unverified
Transferable Positive/Negative Speech Emotion Recognition via Class-wise Adversarial Domain Adaptation	Oct 30, 2018	Domain AdaptationEmotion Recognition	—Unverified
Transfer Learning for Personality Perception via Speech Emotion Recognition	May 25, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Transforming the Embeddings: A Lightweight Technique for Speech Emotion Recognition Tasks	May 29, 2023	Emotion RecognitionSpeaker Recognition	—Unverified
TRNet: Two-level Refinement Network leveraging Speech Enhancement for Noise Robust Speech Emotion Recognition	Apr 19, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Turbo your multi-modal classification with contrastive learning	Sep 14, 2024	ClassificationContrastive Learning	—Unverified
Two-stage Framework for Robust Speech Emotion Recognition Using Target Speaker Extraction in Human Speech Noise Conditions	Sep 29, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Unifying the Discrete and Continuous Emotion labels for Speech Emotion Recognition	Oct 29, 2022	Emotion RecognitionMulti-Task Learning	—Unverified
Unsupervised Cross-Lingual Speech Emotion Recognition Using DomainAdversarial Neural Network	Dec 21, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Unsupervised low-rank representations for speech emotion recognition	Apr 14, 2021	Dimensionality ReductionEmotion Recognition	—Unverified
Unsupervised Personalization of an Emotion Recognition System: The Unique Properties of the Externalization of Valence in Speech	Jan 19, 2022	Emotion RecognitionPrediction	—Unverified
Unsupervised Representation Learning with Future Observation Prediction for Speech Emotion Recognition	Oct 24, 2019	Emotion RecognitionRepresentation Learning	—Unverified
Unsupervised Representations Improve Supervised Learning in Speech Emotion Recognition	Sep 22, 2023	Emotion ClassificationEmotion Recognition	—Unverified
Usefulness of Emotional Prosody in Neural Machine Translation	Apr 27, 2024	Emotion RecognitionMachine Translation	—Unverified
Utilizing Speech Emotion Recognition and Recommender Systems for Negative Emotion Handling in Therapy Chatbots	Nov 18, 2023	ChatbotEmotion Recognition	—Unverified
Variational Autoencoders for Learning Latent Representations of Speech Emotion: A Preliminary Study	Dec 23, 2017	Emotion ClassificationEmotion Recognition	—Unverified
Versatile audio-visual learning for emotion recognition	May 12, 2023	Arousal EstimationAttribute	—Unverified
Visually Guided Self Supervised Learning of Speech Representations	Jan 13, 2020	Emotion RecognitionRepresentation Learning	—Unverified
WavFusion: Towards wav2vec 2.0 Multimodal Speech Emotion Recognition	Dec 7, 2024	DiversityEmotion Recognition	—Unverified
"We care": Improving Code Mixed Speech Emotion Recognition in Customer-Care Conversations	Aug 6, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
What Does it Take to Generalize SER Model Across Datasets? A Comprehensive Benchmark	Jun 14, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
1st Place Solution to Odyssey Emotion Recognition Challenge Task1: Tackling Class Imbalance Problem	May 30, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Conditioning LLMs with Emotion in Neural Machine Translation	Aug 6, 2024	Emotion RecognitionMachine Translation	—Unverified
CAMEO: Collection of Multilingual Emotional Speech Corpora	May 16, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified
EMO-Debias: Benchmarking Gender Debiasing Techniques in Multi-Label Speech Emotion Recognition	Jun 5, 2025	BenchmarkingEmotion Recognition	—Unverified
A breakthrough in Speech emotion recognition using Deep Retinal Convolution Neural Networks	Jul 12, 2017	Data AugmentationEmotion Recognition	—Unverified
Accounting for Variations in Speech Emotion Recognition with Nonparametric Hierarchical Neural Network	Sep 9, 2021	ClusteringCross-corpus	—Unverified
A Comparative Study of Pre-trained Speech and Audio Embeddings for Speech Emotion Recognition	Apr 22, 2023	Emotion RecognitionSpeaker Recognition	—Unverified
Acoustic-to-articulatory Speech Inversion with Multi-task Learning	May 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Cross-Corpus Speech Emotion Recognition Method Based on Supervised Contrastive Learning	Nov 25, 2024	Contrastive LearningCross-corpus	—Unverified
A cross-corpus study on speech emotion recognition	Jul 5, 2022	Cross-corpusEmotion Recognition	—Unverified
A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition	Oct 6, 2024	Domain AdaptationEmotion Recognition	—Unverified

Show:10 25 50

← PrevPage 6 of 9Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified