Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 431 papers

Title	Date	Tasks	Status
Persian Speech Emotion Recognition by Fine-Tuning Transformers	Feb 11, 2024	Emotion RecognitionSelf-Supervised Learning	—Unverified
Personalized Adaptation with Pre-trained Speech Encoders for Continuous Emotion Recognition	Sep 5, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Personalized Speech Emotion Recognition in Human-Robot Interaction using Vision Transformers	Sep 16, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Pitch-Synchronous Single Frequency Filtering Spectrogram for Speech Emotion Recognition	Aug 7, 2019	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Privacy against Real-Time Speech Emotion Detection via Acoustic Adversarial Evasion of Machine Learning	Nov 17, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Probing Speech Emotion Recognition Transformers for Linguistic Knowledge	Apr 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Prompting Audios Using Acoustic Properties For Emotion Representation	Oct 3, 2023	Contrastive LearningDiversity	—Unverified
Real-time Speech Emotion Recognition Based on Syllable-Level Feature Extraction	Apr 25, 2022	Cross-corpusEmotion Recognition	—Unverified
Recognizing More Emotions with Less Data Using Self-supervised Transfer Learning	Nov 11, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability	Apr 3, 2021	Emotion Recognitionreinforcement-learning	—Unverified
Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition	Nov 14, 2024	Emotion RecognitionModel Compression	—Unverified
Representation learning through cross-modal conditional teacher-student training for speech emotion recognition	Nov 30, 2021	Emotion ClassificationEmotion Recognition	—Unverified
Representation Learning with Graph Neural Networks for Speech Emotion Recognition	Aug 21, 2022	Emotion RecognitionGraph Neural Network	—Unverified
Research on several key technologies in practical speech emotion recognition	Sep 27, 2017	ClusteringEmotion Recognition	—Unverified
Revealing Emotional Clusters in Speaker Embeddings: A Contrastive Learning Strategy for Speech Emotion Recognition	Jan 19, 2024	Contrastive LearningEmotion Recognition	—Unverified
Exploring Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations	Sep 26, 2024	Domain AdaptationDomain Generalization	—Unverified
Coverage-Guaranteed Speech Emotion Recognition via Calibrated Uncertainty-Adaptive Prediction Sets	Mar 24, 2025	Conformal PredictionEmotion Recognition	—Unverified
Robust Federated Learning Against Adversarial Attacks for Speech Emotion Recognition	Mar 9, 2022	Emotion RecognitionFederated Learning	—Unverified
Searching for Effective Preprocessing Method and CNN-based Architecture with Efficient Channel Attention on Speech Emotion Recognition	Sep 6, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
SEGAA: A Unified Approach to Predicting Age, Gender, and Emotion in Speech	Mar 1, 2024	Speech Emotion Recognition	—Unverified
Self-paced ensemble learning for speech and audio classification	Mar 22, 2021	Audio ClassificationClassification	—Unverified
Self-Supervised Attention Networks and Uncertainty Loss Weighting for Multi-Task Emotion Recognition on Vocal Bursts	Sep 15, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Semi-supervised cross-lingual speech emotion recognition	Jul 14, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Sentiment-Aware Automatic Speech Recognition pre-training for enhanced Speech Emotion Recognition	Jan 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Sentiment recognition of Italian elderly through domain adaptation on cross-corpus speech dataset	Nov 14, 2022	Cross-corpusDomain Adaptation	—Unverified
SeQuiFi: Mitigating Catastrophic Forgetting in Speech Emotion Recognition with Sequential Class-Finetuning	Oct 16, 2024	Continual LearningEmotion Recognition	—Unverified
SER_AMPEL: a multi-source dataset for speech emotion recognition of Italian older adults	Nov 24, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Shallow over Deep Neural Networks: A empirical analysis for human emotion classification using audio data	Jul 3, 2020	Emotion ClassificationEmotion Recognition	—Unverified
Source Tracing of Synthetic Speech Systems Through Paralinguistic Pre-Trained Representations	Jun 1, 2025	Emotion RecognitionRhythm	—Unverified
Speaker Attentive Speech Emotion Recognition	Apr 15, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speaker-invariant Affective Representation Learning via Adversarial Training	Nov 4, 2019	Emotion ClassificationEmotion Recognition	—Unverified
Speaker Normalization for Self-supervised Speech Emotion Recognition	Feb 2, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech and Text-Based Emotion Recognizer	Dec 10, 2023	Data AugmentationEmotion Recognition	—Unverified
Speech Emotion Recognition Based on CNN+LSTM Model	Oct 1, 2021	Emotion Recognitionmodel	—Unverified
Speech Emotion Recognition Based on Multi-feature and Multi-lingual Fusion	Jan 16, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition Based on Self-Attention Weight Correction for Acoustic and Text Features	Nov 8, 2022	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
Speech Emotion Recognition Considering Local Dynamic Features	Mar 21, 2018	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Breaking Resource Barriers in Speech Emotion Recognition via Data Distillation	Jun 21, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition Using CNN and Its Use Case in Digital Healthcare	Jun 15, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition Using Deep Sparse Auto-Encoder Extreme Learning Machine with a New Weighting Scheme and Spectro-Temporal Features Along with Classical Feature Selection and A New Quantum-Inspired Dimension Reduction Method	Nov 13, 2021	ClassificationDimensionality Reduction	—Unverified
Speech Emotion Recognition Using Quaternion Convolutional Neural Networks	Oct 31, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition using Self-Supervised Features	Feb 7, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition using Supervised Deep Recurrent System for Mental Health Monitoring	Aug 26, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition using Support Vector Machine	Feb 3, 2020	ClassificationEmotion Recognition	—Unverified
Speech Emotion Recognition via an Attentive Time-Frequency Neural Network	Oct 22, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition via Contrastive Loss under Siamese Networks	Oct 23, 2019	Emotion Recognitionfeature selection	—Unverified
結合非線性動態特徵之語音情緒辨識(Speech Emotion Recognition via Nonlinear Dynamical Features)[In Chinese]	Oct 1, 2015	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition with Distilled Prosodic and Linguistic Affect Representations	Sep 9, 2023	Emotion RecognitionKnowledge Distillation	—Unverified
Speech Emotion Recognition with Dual-Sequence LSTM Architecture	Oct 20, 2019	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition with Multiscale Area Attention and Data Augmentation	Feb 3, 2021	Data AugmentationEmotion Recognition	—Unverified

Show:10 25 50

← PrevPage 5 of 9Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified