Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 431 papers

Title	Date	Tasks	Status
Active Learning Based Fine-Tuning Framework for Speech Emotion Recognition	Sep 30, 2023	Active LearningEmotion Recognition	—Unverified
Adapting WavLM for Speech Emotion Recognition	May 7, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Adversarial Machine Learning And Speech Emotion Recognition: Utilizing Generative Adversarial Networks For Robustness	Nov 28, 2018	Adversarial AttackBIG-bench Machine Learning	—Unverified
Adversarial Machine Learning And Speech Emotion Recognition: Utilizing Generative Adversarial Networks For Robustness	Oct 24, 2018	Adversarial AttackBIG-bench Machine Learning	—Unverified
A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding	Nov 4, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Graph Isomorphism Network with Weighted Multiple Aggregators for Speech Emotion Recognition	Jul 3, 2022	Emotion RecognitionGraph Neural Network	—Unverified
AHD ConvNet for Speech Emotion Classification	Jun 10, 2022	ClassificationEmotion Classification	—Unverified
A Layer-Anchoring Strategy for Enhancing Cross-Lingual Speech Emotion Recognition	Jul 6, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
A Multi-Task, Multi-Modal Approach for Predicting Categorical and Dimensional Emotions	Dec 31, 2023	Emotion RecognitionMulti-Task Learning	—Unverified
Analysis of constant-Q filterbank based representations for speech emotion recognition	Nov 29, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
An analysis of large speech models-based representations for speech emotion recognition	Nov 1, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
An Attribute-Aligned Strategy for Learning Speech Representation	Jun 5, 2021	AttributeEmotion Recognition	—Unverified
An Empirical Study and Improvement for Speech Emotion Recognition	Apr 8, 2023	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
A New Amharic Speech Emotion Dataset and Classification Benchmark	Jan 7, 2022	ClassificationEmotion Recognition	—Unverified
A Novel Trajectory-based Spatial-Temporal Spectral Features for Speech Emotion Recognition	Dec 1, 2017	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Are Mamba-based Audio Foundation Models the Best Fit for Non-Verbal Emotion Recognition?	Jun 2, 2025	Emotion RecognitionMamba	—Unverified
A Siamese Neural Network with Modified Distance Loss For Transfer Learning in Speech Emotion Recognition	Jun 4, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified
ASR and Emotional Speech: A Word-Level Investigation of the Mutual Impact of Speech and Emotion Recognition	May 25, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A study on cross-corpus speech emotion recognition and data augmentation	Jan 10, 2022	Cross-corpusData Augmentation	—Unverified
A Survey on Speech Large Language Models	Oct 24, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Transfer Learning Method for Speech Emotion Recognition from Automatic Speech Recognition	Aug 6, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Attention-based Region of Interest (ROI) Detection for Speech Emotion Recognition	Mar 3, 2022	Emotion RecognitionMulti-class Classification	—Unverified
Attentive Convolutional Neural Network based Speech Emotion Recognition: A Study on the Impact of Input Features, Signal Length, and Acted Speech	Jun 2, 2017	Emotion RecognitionMULTI-VIEW LEARNING	—Unverified
Audio Enhancement for Computer Audition -- An Iterative Training Paradigm Using Sample Importance	Aug 12, 2024	Acoustic Scene ClassificationAutomatic Speech Recognition	—Unverified
Audio Representation Learning by Distilling Video as Privileged Information	Feb 6, 2023	Emotion RecognitionKnowledge Distillation	—Unverified
Automated Assessment of Encouragement and Warmth in Classrooms Leveraging Multimodal Emotional Features and ChatGPT	Apr 1, 2024	Emotion RecognitionSentiment Analysis	—Unverified
Automatic Analysis of the Emotional Content of Speech in Daylong Child-Centered Recordings from a Neonatal Intensive Care Unit	Jun 14, 2021	Active LearningBinary Classification	—Unverified
A vector quantized masked autoencoder for audiovisual speech emotion recognition	May 5, 2023	Contrastive LearningEmotion Recognition	—Unverified
Improving Cross-Corpus Speech Emotion Recognition with Adversarial Discriminative Domain Generalization (ADDoG)	Mar 28, 2019	Cross-corpusDomain Generalization	—Unverified
Best Practices for Noise-Based Augmentation to Improve the Performance of Deployable Speech-Based Emotion Recognition Systems	Apr 18, 2021	Adversarial AttackAutomatic Speech Recognition	—Unverified
Beyond Isolated Utterances: Conversational Emotion Recognition	Sep 13, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition	Sep 27, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Bimodal Connection Attention Fusion for Speech Emotion Recognition	Mar 8, 2025	DecoderEmotion Recognition	—Unverified
Bimodal Speech Emotion Recognition Using Pre-Trained Language Models	Nov 29, 2019	Emotion RecognitionReinforcement Learning	—Unverified
Biologically inspired speech emotion recognition	Nov 15, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Can Emotion Fool Anti-spoofing?	May 29, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Can We Estimate Purchase Intention Based on Zero-shot Speech Emotion Recognition?	Oct 12, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Capturing Spectral and Long-term Contextual Information for Speech Emotion Recognition Using Deep Learning Techniques	Aug 4, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Characterizing Types of Convolution in Deep Convolutional Recurrent Neural Networks for Robust Speech Emotion Recognition	Jun 7, 2017	Emotion RecognitionEvent Detection	—Unverified
Churn Prediction via Multimodal Fusion Learning:Integrating Customer Financial Literacy, Voice, and Behavioral Data	Dec 3, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Classifying Emotional Utterances by Employing Multi-modal Speech Emotion Recognition	Dec 1, 2021	Emotion RecognitionGender Classification	—Unverified
CNN+LSTM Architecture for Speech Emotion Recognition with Data Augmentation	Feb 15, 2018	Data AugmentationEmotion Recognition	—Unverified
CNN-n-GRU: end-to-end speech emotion recognition from raw waveform signal using CNNs and gated recurrent unit networks	Mar 23, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified
ConcealNet: An End-to-end Neural Network for Packet Loss Concealment in Deep Speech Emotion Recognition	May 15, 2020	Emotion RecognitionPacket Loss Concealment	—Unverified
Consensus-based Distributed Quantum Kernel Learning for Speech Recognition	Sep 9, 2024	Computational EfficiencyEmotion Recognition	—Unverified
Context-Dependent Domain Adversarial Neural Network for Multimodal Emotion Recognition	Oct 28, 2020	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
Continuous Metric Learning For Transferable Speech Emotion Recognition and Embedding Across Low-resource Languages	Mar 28, 2022	DenoisingEmotion Classification	—Unverified
Contrastive Unsupervised Learning for Speech Emotion Recognition	Feb 12, 2021	Emotion RecognitionRepresentation Learning	—Unverified
Converting Anyone's Voice: End-to-End Expressive Voice Conversion with a Conditional Diffusion Model	May 2, 2024	DenoisingEmotion Recognition	—Unverified
Convolutional and Recurrent Neural Networks for Spoken Emotion Recognition	Dec 1, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified

Show:10 25 50

← PrevPage 7 of 9Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified