Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 431 papers

Title	Date	Tasks	Status	Hype
CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training	May 23, 2025	Automatic Speech RecognitionEmotion Recognition	CodeCode Available	11
OSUM: Advancing Open Speech Understanding Models with Limited Resources in Academia	Jan 23, 2025	Emotion RecognitionEvent Detection	CodeCode Available	3
EmoBox: Multilingual Multi-corpus Speech Emotion Recognition Toolkit and Benchmark	Jun 11, 2024	Cross-corpusEmotion Recognition	CodeCode Available	3
emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation	Dec 23, 2023	Emotion RecognitionSelf-Supervised Learning	CodeCode Available	3
Attention Is All You Need	Jun 12, 2017	Abstractive Text SummarizationAll	CodeCode Available	3
EmoSphere-SER: Enhancing Speech Emotion Recognition Through Spherical Representation with Auxiliary Classification	May 26, 2025	Emotion Recognitionregression	CodeCode Available	2
BLSP-Emo: Towards Empathetic Large Speech-Language Models	Jun 6, 2024	Emotion RecognitionInstruction Following	CodeCode Available	2
EMO-SUPERB: An In-depth Look at Speech Emotion Recognition	Feb 20, 2024	Emotion RecognitionSelf-Supervised Learning	CodeCode Available	2
LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT	Oct 7, 2023	Audio captioningAutomatic Speech Recognition	CodeCode Available	2
Dawn of the transformer era in speech emotion recognition: closing the valence gap	Mar 14, 2022	Cross-corpusEmotion Recognition	CodeCode Available	2
AST: Audio Spectrogram Transformer	Apr 5, 2021	Audio ClassificationAudio Tagging	CodeCode Available	2
Steering Language Model to Stable Speech Emotion Recognition via Contextual Perception and Chain of Thought	Feb 25, 2025	Emotion RecognitionLanguage Modeling	CodeCode Available	1
SigWavNet: Learning Multiresolution Signal Wavelet Network for Speech Emotion Recognition	Feb 1, 2025	DenoisingEmotion Recognition	CodeCode Available	1
SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition	Aug 14, 2024	Automatic Speech RecognitionBenchmarking	CodeCode Available	1
Odyssey 2024 - Speech Emotion Recognition Challenge: Dataset, Baseline Framework, and Results	Jun 20, 2024	AttributeEmotion Recognition	CodeCode Available	1
Accuracy enhancement method for speech emotion recognition from spectrogram using temporal frequency correlation and positional information learning through knowledge transfer	Mar 26, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
emoDARTS: Joint Optimisation of CNN & Sequential Neural Network Architectures for Superior Speech Emotion Recognition	Mar 21, 2024	Emotion RecognitionNeural Architecture Search	CodeCode Available	1
Speech Emotion Recognition Via CNN-Transformer and Multidimensional Attention Mechanism	Mar 7, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
Frame-level emotional state alignment method for speech emotion recognition	Dec 27, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio Detection	Aug 7, 2023	Continual LearningEmotion Recognition	CodeCode Available	1
Emo-DNA: Emotion Decoupling and Alignment Learning for Cross-Corpus Speech Emotion Recognition	Aug 4, 2023	Cross-corpusDomain Adaptation	CodeCode Available	1
Vesper: A Compact and Effective Pretrained Model for Speech Emotion Recognition	Jul 20, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech Emotion Recognition	Jun 26, 2023	Data AugmentationEmotion Recognition	CodeCode Available	1
Speech Emotion Diarization: Which Emotion Appears When?	Jun 22, 2023	Emotion Recognitionspeaker-diarization	CodeCode Available	1
Enhancing Speech Emotion Recognition Through Differentiable Architecture Search	May 23, 2023	Emotion RecognitionNeural Architecture Search	CodeCode Available	1
A vector quantized masked autoencoder for speech emotion recognition	Apr 21, 2023	Emotion RecognitionSelf-Supervised Learning	CodeCode Available	1
DWFormer: Dynamic Window transFormer for Speech Emotion Recognition	Mar 3, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic Speech Processing	Feb 27, 2023	Alzheimer's Disease DetectionEmotion Recognition	CodeCode Available	1
EmoGator: A New Open Source Vocal Burst Dataset with Baseline Machine Learning Classification Methodologies	Jan 2, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
Large Raw Emotional Dataset with Aggregation Mechanism	Dec 23, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
A Persian ASR-based SER: Modification of Sharif Emotional Speech Database and Investigation of Persian Text Corpora	Nov 18, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach for Speech Emotion Recognition	Nov 14, 2022	Speech Emotion Recognition	CodeCode Available	1
SPEAKER VGG CCT: Cross-corpus Speech Emotion Recognition with Speaker Embedding and Vision Transformers	Nov 4, 2022	Cross-corpusEmotion Recognition	CodeCode Available	1
GM-TCNet: Gated Multi-scale Temporal Convolutional Network using Emotion Causality for Speech Emotion Recognition	Oct 28, 2022	Emotion RecognitionRepresentation Learning	CodeCode Available	1
Speech Emotion Recognition with Global-Aware Fusion on Multi-scale Feature Representation	Apr 12, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
MMER: Multimodal Multi-task Learning for Speech Emotion Recognition	Mar 31, 2022	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	1
Speech Emotion Recognition with Co-Attention based Multi-level Acoustic Information	Mar 29, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
SepTr: Separable Transformer for Audio Spectrogram Processing	Mar 17, 2022	Audio ClassificationSpeech Emotion Recognition	CodeCode Available	1
Semi-FedSER: Semi-supervised Learning for Speech Emotion Recognition On Federated Learning using Multiview Pseudo-Labeling	Mar 15, 2022	Emotion RecognitionFederated Learning	CodeCode Available	1
Privacy-preserving Speech Emotion Recognition through Semi-Supervised Federated Learning	Feb 5, 2022	Emotion RecognitionFederated Learning	CodeCode Available	1
A proposal for Multimodal Emotion Recognition using aural transformers and Action Units on RAVDESS dataset	Dec 30, 2021	Autonomous DrivingEmotion Recognition	CodeCode Available	1
Attribute Inference Attack of Speech Emotion Recognition in Federated Learning Settings	Dec 26, 2021	AttributeEmotion Recognition	CodeCode Available	1
Exploring Wav2vec 2.0 fine-tuning for improved speech emotion recognition	Oct 12, 2021	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
Arabic Speech Emotion Recognition Employing Wav2vec2.0 and HuBERT Based on BAVED Dataset	Oct 9, 2021	Deep LearningEmotion Recognition	CodeCode Available	1
SERAB: A multi-lingual benchmark for speech emotion recognition	Oct 7, 2021	BenchmarkingEmotion Recognition	CodeCode Available	1
Light-SERNet: A lightweight fully convolutional neural network for speech emotion recognition	Oct 7, 2021	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
Speech Emotion Recognition with Multi-Task Learning	Sep 6, 2021	Emotion ClassificationEmotion Recognition	CodeCode Available	1
Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention	Jun 8, 2021	Emotion ClassificationEmotion Recognition	CodeCode Available	1
Emotion Recognition from Speech Using Wav2vec 2.0 Embeddings	Apr 8, 2021	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
EmoNet: A Transfer Learning Framework for Multi-Corpus Speech Emotion Recognition	Mar 10, 2021	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 9Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified