Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 431 papers

Title	Date	Tasks	Status
Metadata-Enhanced Speech Emotion Recognition: Augmented Residual Integration and Co-Attention in Two-Stage Fine-Tuning	Dec 30, 2024	Emotion RecognitionMulti-Task Learning	—Unverified
Meta-PerSER: Few-Shot Listener Personalized Speech Emotion Recognition via Meta-learning	May 22, 2025	Emotion RecognitionMeta-Learning	—Unverified
Meta Transfer Learning for Emotion Recognition	Jun 23, 2020	Emotion RecognitionFacial Expression Recognition	—Unverified
MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, Asr Error Detection, and Asr Error Correction	Jan 24, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
MFSN: Multi-perspective Fusion Search Network For Pre-training Knowledge in Speech Emotion Recognition	Jun 12, 2023	Emotion RecognitionQuantization	—Unverified
MFHCA: Enhancing Speech Emotion Recognition Via Multi-Spatial Fusion and Hierarchical Cooperative Attention	Apr 21, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach	May 20, 2025	Emotion RecognitionFairness	—Unverified
Mixer is more than just a model	Feb 28, 2024	Audio ClassificationEnvironmental Sound Classification	—Unverified
Modulation spectral features for speech emotion recognition using deep neural networks	Jan 14, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Mouth Articulation-Based Anchoring for Improved Cross-Corpus Speech Emotion Recognition	Dec 27, 2024	Cross-corpusEmotion Recognition	—Unverified
MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition	Aug 8, 2023	AttributeCross-corpus	—Unverified
MSM-VC: High-fidelity Source Style Transfer for Non-Parallel Voice Conversion by Multi-scale Style Modeling	Sep 3, 2023	Data AugmentationDisentanglement	—Unverified
MSP-Podcast SER Challenge 2024: L'antenne du Ventoux Multimodal Self-Supervised Learning for Speech Emotion Recognition	Jul 8, 2024	AttributeEmotion Recognition	—Unverified
Multi-Classifier Interactive Learning for Ambiguous Speech Emotion Recognition	Dec 10, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Multilingual Speech Emotion Recognition With Multi-Gating Mechanism and Neural Architecture Search	Oct 31, 2022	Emotion RecognitionNeural Architecture Search	—Unverified
Multi-Microphone Speech Emotion Recognition using the Hierarchical Token-semantic Audio Transformer Architecture	Jun 5, 2024	Emotion ClassificationEmotion Recognition	—Unverified
Multimodal Emotion Recognition on RAVDESS Dataset Using Transfer Learning	Nov 18, 2021	Domain AdaptationEmotion Recognition	—Unverified
Multimodal Speech Emotion Recognition using Cross Attention with Aligned Audio and Text	Jul 26, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Multiscale Contextual Learning for Speech Emotion Recognition in Emergency Call Center Conversations	Aug 28, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Multi-Scale Temporal Transformer For Speech Emotion Recognition	Oct 1, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Multistage linguistic conditioning of convolutional layers for speech emotion recognition	Oct 13, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Multi-stream Attention-based BLSTM with Feature Segmentation for Speech Emotion Recognition	Oct 25, 2020	Data AugmentationEmotional Speech Synthesis	—Unverified
Multitask vocal burst modeling with ResNets and pre-trained paralinguistic Conformers	Jun 24, 2022	Emotion RecognitionEvent Detection	—Unverified
Multi-View Multi-Task Modeling with Speech Foundation Models for Speech Forensic Tasks	Oct 16, 2024	Age EstimationEmotion Recognition	—Unverified
Multi-Window Data Augmentation Approach for Speech Emotion Recognition	Oct 19, 2020	Data AugmentationEmotion Recognition	—Unverified
Neural Architecture Search for Speech Emotion Recognition	Mar 31, 2022	Emotion RecognitionNeural Architecture Search	—Unverified
Noise robust speech emotion recognition with signal-to-noise ratio adapting speech enhancement	Sep 3, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Non-Contrastive Self-supervised Learning for Utterance-Level Information Extraction from Speech	Aug 10, 2022	Alzheimer's Disease DetectionEmotion Recognition	—Unverified
Non-linear frequency warping using constant-Q transformation for speech emotion recognition	Feb 8, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Normalization Before Shaking Toward Learning Symmetrically Distributed Representation Without Margin in Speech Emotion Recognition	Aug 2, 2018	Data AugmentationEmotion Recognition	—Unverified
Novel Dual-Channel Long Short-Term Memory Compressed Capsule Networks for Emotion Recognition	Dec 26, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Once More, With Feeling: Measuring Emotion of Acting Performances in Contemporary American Film	Nov 15, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
On Enhancing Speech Emotion Recognition using Generative Adversarial Networks	Jun 18, 2018	Cross-corpusEmotion Recognition	—Unverified
On the Effectiveness of ASR Representations in Real-world Noisy Speech Emotion Recognition	Nov 13, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion and Automatic Speech Recognition	May 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion Recognition: An Update for the Deep Learning Era	Apr 20, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
On the Robustness of Speech Emotion Recognition for Human-Robot Interaction with Deep Neural Networks	Apr 6, 2018	Data AugmentationEmotion Recognition	—Unverified
On the use of Self-supervised Pre-trained Acoustic and Linguistic Features for Continuous Speech Emotion Recognition	Nov 18, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Optimizing Speech Emotion Recognition using Manta-Ray Based Feature Selection	Sep 18, 2020	ClassificationEmotion Recognition	—Unverified
Parameter Efficient Finetuning for Speech Emotion Recognition and Domain Adaptation	Feb 19, 2024	Cross-corpusDomain Adaptation	—Unverified
Representation Learning with Parameterised Quantum Circuits for Advancing Speech Emotion Recognition	Jan 21, 2025	Emotion ClassificationEmotion Recognition	—Unverified
PARROT: Synergizing Mamba and Attention-based SSL Pre-Trained Models via Parallel Branch Hadamard Optimal Transport for Speech Emotion Recognition	Jun 1, 2025	Emotion RecognitionMamba	—Unverified
PCQ: Emotion Recognition in Speech via Progressive Channel Querying	Jul 17, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Persian Speech Emotion Recognition by Fine-Tuning Transformers	Feb 11, 2024	Emotion RecognitionSelf-Supervised Learning	—Unverified
Personalized Adaptation with Pre-trained Speech Encoders for Continuous Emotion Recognition	Sep 5, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Personalized Speech Emotion Recognition in Human-Robot Interaction using Vision Transformers	Sep 16, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Pitch-Synchronous Single Frequency Filtering Spectrogram for Speech Emotion Recognition	Aug 7, 2019	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Privacy against Real-Time Speech Emotion Detection via Acoustic Adversarial Evasion of Machine Learning	Nov 17, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Probing Speech Emotion Recognition Transformers for Linguistic Knowledge	Apr 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enrolment-based personalisation for improving individual-level fairness in speech emotion recognition	Jun 10, 2024	Emotion RecognitionFairness	CodeCode Available

Show:10 25 50

← PrevPage 7 of 9Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified