Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–431 of 431 papers

Title	Date	Tasks	Status
Iterative Feature Boosting for Explainable Speech Emotion Recognition	May 30, 2024	Emotion RecognitionFeature Engineering	CodeCode Available
Domain Specific Wav2vec 2.0 Fine-tuning For The SE&R 2022 Challenge	Jul 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
EMOVOME: A Dataset for Emotion Recognition in Spontaneous Real-Life Speech	Mar 4, 2024	Emotion RecognitionFairness	CodeCode Available
Knowledge Transfer For On-Device Speech Emotion Recognition with Neural Structured Learning	Oct 26, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
Label Uncertainty Modeling and Prediction for Speech Emotion Recognition using t-Distributions	Jul 25, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
A Dataset for Speech Emotion Recognition in Greek Theatrical Plays	Mar 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Large Language Models Meet Contrastive Learning: Zero-Shot Emotion Recognition Across Languages	Mar 25, 2025	Contrastive LearningDiversity	CodeCode Available
Deep Learning based Emotion Recognition System Using Speech Features and Transcriptions	Jun 11, 2019	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
DeepEMO: Deep Learning for Speech Emotion Recognition	Sep 9, 2021	Deep LearningEmotion Recognition	CodeCode Available
The Emotional Voices Database: Towards Controlling the Emotion Dimension in Voice Generation Systems	Jun 25, 2018	Speech Emotion RecognitionSpeech Synthesis	CodeCode Available
Learning Alignment for Multimodal Emotion Recognition from Speech	Sep 6, 2019	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available
Speech Emotion Recognition Using Multi-hop Attention Mechanism	Apr 23, 2019	Emotion ClassificationEmotion Recognition	CodeCode Available
Non-linear Neurons with Human-like Apical Dendrite Activations	Feb 2, 2020	Speech Emotion Recognition	CodeCode Available
Active Learning with Task Adaptation Pre-training for Speech Emotion Recognition	May 1, 2024	Active LearningEmotion Recognition	CodeCode Available
BERSting at the Screams: A Benchmark for Distanced, Emotional and Shouted Speech Recognition	Apr 30, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Learning Robust Self-attention Features for Speech Emotion Recognition with Label-adaptive Mixup	May 7, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
Cross Lingual Speech Emotion Recognition: Urdu vs. Western Languages	Dec 15, 2018	Cross-corpusEmotion Recognition	CodeCode Available
Learning Speech Emotion Representations in the Quaternion Domain	Apr 5, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
ABHINAYA -- A System for Speech Emotion Recognition In Naturalistic Conditions Challenge	May 23, 2025	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
Speech Emotion Recognition Using Speech Feature and Word Embedding	Nov 18, 2019	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
Learning Rate Curriculum	May 18, 2022	Audio ClassificationQNLI	CodeCode Available
Leveraged Mel spectrograms using Harmonic and Percussive Components in Speech Emotion Recognition	Dec 18, 2023	Data AugmentationEmotion Recognition	CodeCode Available
Leveraging Content and Acoustic Representations for Speech Emotion Recognition	Sep 9, 2024	Emotion RecognitionLanguage Modelling	CodeCode Available
On The Differences Between Song and Speech Emotion Recognition: Effect of Feature Sets, Feature Types, and Classifiers	Apr 1, 2020	Emotion Recognitionregression	CodeCode Available
Leveraging Pre-Trained Acoustic Feature Extractor For Affective Vocal Bursts Tasks	Dec 21, 2022	Emotion Recognitionregression	CodeCode Available
The Whole Is Bigger Than the Sum of Its Parts: Modeling Individual Annotators to Capture Emotional Variability	Aug 21, 2024	Cross-corpusEmotion Recognition	CodeCode Available
Self-supervised Graphs for Audio Representation Learning with Limited Labeled Data	Jan 31, 2022	Emotion RecognitionEvent Detection	CodeCode Available
Decoding Emotions: A comprehensive Multilingual Study of Speech Models for Speech Emotion Recognition	Aug 17, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
Audio Explanation Synthesis with Generative Foundation Models	Oct 10, 2024	BenchmarkingDecision Making	CodeCode Available
A low latency attention module for streaming self-supervised speech representation learning	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
CTL-MTNet: A Novel CapsNet and Transfer Learning-Based Mixed Task Net for the Single-Corpus and Cross-Corpus Speech Emotion Recognition	Jul 18, 2022	Cross-corpusEmotion Recognition	CodeCode Available

Show:10 25 50

← PrevPage 9 of 9Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified