Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 431 papers

Title	Date	Tasks	Status	Hype
Continuous control with deep reinforcement learning	Sep 9, 2015	Action Detectioncontinuous-control	CodeCode Available	1
Speech Emotion Recognition with Global-Aware Fusion on Multi-scale Feature Representation	Apr 12, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic Speech Processing	Feb 27, 2023	Alzheimer's Disease DetectionEmotion Recognition	CodeCode Available	1
Speech SIMCLR: Combining Contrastive and Reconstruction Objective for Self-supervised Speech Representation Learning	Oct 27, 2020	Emotion RecognitionRepresentation Learning	CodeCode Available	1
emoDARTS: Joint Optimisation of CNN & Sequential Neural Network Architectures for Superior Speech Emotion Recognition	Mar 21, 2024	Emotion RecognitionNeural Architecture Search	CodeCode Available	1
Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio Detection	Aug 7, 2023	Continual LearningEmotion Recognition	CodeCode Available	1
A vector quantized masked autoencoder for speech emotion recognition	Apr 21, 2023	Emotion RecognitionSelf-Supervised Learning	CodeCode Available	1
Cross-Lingual Cross-Age Group Adaptation for Low-Resource Elderly Speech Emotion Recognition	Jun 26, 2023	Data AugmentationEmotion Recognition	CodeCode Available	1
DWFormer: Dynamic Window transFormer for Speech Emotion Recognition	Mar 3, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
Light-SERNet: A lightweight fully convolutional neural network for speech emotion recognition	Oct 7, 2021	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition	Aug 14, 2024	Automatic Speech RecognitionBenchmarking	CodeCode Available	1
Automated Assessment of Encouragement and Warmth in Classrooms Leveraging Multimodal Emotional Features and ChatGPT	Apr 1, 2024	Emotion RecognitionSentiment Analysis	—Unverified	0
Audio Representation Learning by Distilling Video as Privileged Information	Feb 6, 2023	Emotion RecognitionKnowledge Distillation	—Unverified	0
An analysis of large speech models-based representations for speech emotion recognition	Nov 1, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
A cross-corpus study on speech emotion recognition	Jul 5, 2022	Cross-corpusEmotion Recognition	—Unverified	0
Audio Enhancement for Computer Audition -- An Iterative Training Paradigm Using Sample Importance	Aug 12, 2024	Acoustic Scene ClassificationAutomatic Speech Recognition	—Unverified	0
Converting Anyone's Voice: End-to-End Expressive Voice Conversion with a Conditional Diffusion Model	May 2, 2024	DenoisingEmotion Recognition	—Unverified	0
Convolutional and Recurrent Neural Networks for Spoken Emotion Recognition	Dec 1, 2020	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Analysis of constant-Q filterbank based representations for speech emotion recognition	Nov 29, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
A Cross-Corpus Speech Emotion Recognition Method Based on Supervised Contrastive Learning	Nov 25, 2024	Contrastive LearningCross-corpus	—Unverified	0
Attentive Convolutional Neural Network based Speech Emotion Recognition: A Study on the Impact of Input Features, Signal Length, and Acted Speech	Jun 2, 2017	Emotion RecognitionMULTI-VIEW LEARNING	—Unverified	0
A Multi-Task, Multi-Modal Approach for Predicting Categorical and Dimensional Emotions	Dec 31, 2023	Emotion RecognitionMulti-Task Learning	—Unverified	0
Contrastive Unsupervised Learning for Speech Emotion Recognition	Feb 12, 2021	Emotion RecognitionRepresentation Learning	—Unverified	0
CoordViT: A Novel Method of Improve Vision Transformer-Based Speech Emotion Recognition using Coordinate Information Concatenate	Mar 10, 2023	Emotion RecognitionPosition	—Unverified	0
Attention-based Region of Interest (ROI) Detection for Speech Emotion Recognition	Mar 3, 2022	Emotion RecognitionMulti-class Classification	—Unverified	0

Show:10 25 50

← PrevPage 3 of 18Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified