Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 431 papers

Title	Date	Tasks	Status	Hype	Score
Odyssey 2024 - Speech Emotion Recognition Challenge: Dataset, Baseline Framework, and Results	Jun 20, 2024	AttributeEmotion Recognition	CodeCode Available	1	5
A vector quantized masked autoencoder for speech emotion recognition	Apr 21, 2023	Emotion RecognitionSelf-Supervised Learning	CodeCode Available	1	5
Large Raw Emotional Dataset with Aggregation Mechanism	Dec 23, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1	5
Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention	Jun 8, 2021	Emotion ClassificationEmotion Recognition	CodeCode Available	1	5
Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech Emotion Recognition	Jun 26, 2023	Data AugmentationEmotion Recognition	CodeCode Available	1	5
EmoNet: A Transfer Learning Framework for Multi-Corpus Speech Emotion Recognition	Mar 10, 2021	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1	5
EmoGator: A New Open Source Vocal Burst Dataset with Baseline Machine Learning Classification Methodologies	Jan 2, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1	5
Attribute Inference Attack of Speech Emotion Recognition in Federated Learning Settings	Dec 26, 2021	AttributeEmotion Recognition	CodeCode Available	1	5
SERAB: A multi-lingual benchmark for speech emotion recognition	Oct 7, 2021	BenchmarkingEmotion Recognition	CodeCode Available	1	5
Speech Emotion Recognition with Global-Aware Fusion on Multi-scale Feature Representation	Apr 12, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1	5
Light-SERNet: A lightweight fully convolutional neural network for speech emotion recognition	Oct 7, 2021	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1	5
Leveraging Pre-Trained Acoustic Feature Extractor For Affective Vocal Bursts Tasks	Dec 21, 2022	Emotion Recognitionregression	CodeCode Available	0	5
Leveraging Content and Acoustic Representations for Speech Emotion Recognition	Sep 9, 2024	Emotion RecognitionLanguage Modelling	CodeCode Available	0	5
Audio Explanation Synthesis with Generative Foundation Models	Oct 10, 2024	BenchmarkingDecision Making	CodeCode Available	0	5
Analysis of Self-Supervised Learning and Dimensionality Reduction Methods in Clustering-Based Active Learning for Speech Emotion Recognition	Jun 21, 2022	Active LearningClustering	CodeCode Available	0	5
Leveraged Mel spectrograms using Harmonic and Percussive Components in Speech Emotion Recognition	Dec 18, 2023	Data AugmentationEmotion Recognition	CodeCode Available	0	5
A low latency attention module for streaming self-supervised speech representation learning	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0	5
Attentive Modality Hopping Mechanism for Speech Emotion Recognition	Nov 29, 2019	Emotion ClassificationEmotion Recognition	CodeCode Available	0	5
Learning Speech Emotion Representations in the Quaternion Domain	Apr 5, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0	5
ABHINAYA -- A System for Speech Emotion Recognition In Naturalistic Conditions Challenge	May 23, 2025	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0	5
Learning Robust Self-attention Features for Speech Emotion Recognition with Label-adaptive Mixup	May 7, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0	5
Learning Rate Curriculum	May 18, 2022	Audio ClassificationQNLI	CodeCode Available	0	5
A multimodal dynamical variational autoencoder for audiovisual speech representation learning	May 5, 2023	DenoisingDisentanglement	CodeCode Available	0	5
Attention Based Fully Convolutional Network for Speech Emotion Recognition	Jun 5, 2018	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0	5
Attention-Augmented End-to-End Multi-Task Learning for Emotion Prediction from Speech	Mar 29, 2019	Emotion RecognitionMulti-Task Learning	CodeCode Available	0	5
Label Uncertainty Modeling and Prediction for Speech Emotion Recognition using t-Distributions	Jul 25, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0	5
Large Language Models Meet Contrastive Learning: Zero-Shot Emotion Recognition Across Languages	Mar 25, 2025	Contrastive LearningDiversity	CodeCode Available	0	5
A Systematic Evaluation of Adversarial Attacks against Speech Emotion Recognition Models	Apr 29, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0	5
Is Everything Fine, Grandma? Acoustic and Linguistic Modeling for Robust Elderly Speech Emotion Recognition	Sep 7, 2020	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0	5
Iterative Feature Boosting for Explainable Speech Emotion Recognition	May 30, 2024	Emotion RecognitionFeature Engineering	CodeCode Available	0	5
Integrating Recurrence Dynamics for Speech Emotion Recognition	Nov 9, 2018	Emotion RecognitionEmotion Recognition in Conversation	CodeCode Available	0	5
Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection	Sep 17, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0	5
INTERSPEECH 2009 Emotion Challenge Revisited: Benchmarking 15 Years of Progress in Speech Emotion Recognition	Jun 10, 2024	BenchmarkingEmotion Recognition	CodeCode Available	0	5
Knowledge Transfer For On-Device Speech Emotion Recognition with Neural Structured Learning	Oct 26, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0	5
Learning Alignment for Multimodal Emotion Recognition from Speech	Sep 6, 2019	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	0	5
MEDUSA: A Multimodal Deep Fusion Multi-Stage Training Framework for Speech Emotion Recognition in Naturalistic Conditions	Jun 11, 2025	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0	5
Fine-grained Speech Sentiment Analysis in Chinese Psychological Support Hotlines Based on Large-scale Pre-trained Model	May 7, 2024	Emotion RecognitionMulti-Label Classification	CodeCode Available	0	5
Exploring Multilingual Unseen Speaker Emotion Recognition: Leveraging Co-Attention Cues in Multitask Learning	Jun 13, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0	5
A speech corpus of Quechua Collao for automatic dimensional emotion recognition	Dec 24, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0	5
Fixed-MAML for Few Shot Classification in Multilingual Speech Emotion Recognition	Jan 5, 2021	Emotion RecognitionFew-Shot Learning	CodeCode Available	0	5
A Change of Heart: Improving Speech Emotion Recognition through Speech-to-Text Modality Conversion	Jul 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0	5
ExHuBERT: Enhancing HuBERT Through Block Extension and Fine-Tuning on 37 Emotion Datasets	Jun 11, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0	5
Multi-modal Speech Emotion Recognition via Feature Distribution Adaptation Network	Oct 29, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0	5
Filter-based multi-task cross-corpus feature learning for speech emotion recognition	Feb 20, 2024	Cross-corpusEmotion Recognition	CodeCode Available	0	5
Evaluating Gammatone Frequency Cepstral Coefficients with Neural Networks for Emotion Recognition from Speech	Jun 23, 2018	ClassificationEmotion Recognition	CodeCode Available	0	5
Are you sure? Analysing Uncertainty Quantification Approaches for Real-world Speech Emotion Recognition	Jul 1, 2024	Emotion RecognitionPrediction	CodeCode Available	0	5
Multi-Teacher Language-Aware Knowledge Distillation for Multilingual Speech Emotion Recognition	Jun 10, 2025	Emotion RecognitionKnowledge Distillation	CodeCode Available	0	5
Improving Speech Emotion Recognition Through Cross Modal Attention Alignment and Balanced Stacking Model	May 26, 2025	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0	5
Explaining Deep Learning Embeddings for Speech Emotion Recognition by Predicting Interpretable Acoustic Features	Sep 14, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0	5
A Dataset for Speech Emotion Recognition in Greek Theatrical Plays	Mar 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0	5

Show:10 25 50

← PrevPage 2 of 9Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified