Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–225 of 431 papers

Title	Date	Tasks	Status	Hype
Designing and Evaluating Speech Emotion Recognition Systems: A reality check case study with IEMOCAP	Apr 3, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
CNN-n-GRU: end-to-end speech emotion recognition from raw waveform signal using CNNs and gated recurrent unit networks	Mar 23, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
CoordViT: A Novel Method of Improve Vision Transformer-Based Speech Emotion Recognition using Coordinate Information Concatenate	Mar 10, 2023	Emotion RecognitionPosition	—Unverified	0
DWFormer: Dynamic Window transFormer for Speech Emotion Recognition	Mar 3, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic Speech Processing	Feb 27, 2023	Alzheimer's Disease DetectionEmotion Recognition	CodeCode Available	1
A low latency attention module for streaming self-supervised speech representation learning	Feb 27, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Deep Implicit Distribution Alignment Networks for Cross-Corpus Speech Emotion Recognition	Feb 17, 2023	Cross-corpusEmotion Recognition	—Unverified	0
Gaussian-smoothed Imbalance Data Improves Speech Emotion Recognition	Feb 17, 2023	Data AugmentationEmotion Recognition	—Unverified	0
Audio Representation Learning by Distilling Video as Privileged Information	Feb 6, 2023	Emotion RecognitionKnowledge Distillation	—Unverified	0
deep learning of segment-level feature representation for speech emotion recognition in conversations	Feb 5, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Modulation spectral features for speech emotion recognition using deep neural networks	Jan 14, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
LiteLSTM Architecture Based on Weights Sharing for Recurrent Neural Networks	Jan 12, 2023	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
EmoGator: A New Open Source Vocal Burst Dataset with Baseline Machine Learning Classification Methodologies	Jan 2, 2023	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
A speech corpus of Quechua Collao for automatic dimensional emotion recognition	Dec 24, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0
Large Raw Emotional Dataset with Aggregation Mechanism	Dec 23, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
Leveraging Pre-Trained Acoustic Feature Extractor For Affective Vocal Bursts Tasks	Dec 21, 2022	Emotion Recognitionregression	CodeCode Available	0
Disentangling Prosody Representations with Unsupervised Speech Reconstruction	Dec 14, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Analysis of constant-Q filterbank based representations for speech emotion recognition	Nov 29, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
A Persian ASR-based SER: Modification of Sharif Emotional Speech Database and Investigation of Persian Text Corpora	Nov 18, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Privacy against Real-Time Speech Emotion Detection via Acoustic Adversarial Evasion of Machine Learning	Nov 17, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Improving Speech Emotion Recognition with Unsupervised Speaking Style Transfer	Nov 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach for Speech Emotion Recognition	Nov 14, 2022	Speech Emotion Recognition	CodeCode Available	1
Describing emotions with acoustic property prompts for speech emotion recognition	Nov 14, 2022	Emotion RecognitionRetrieval	—Unverified	0
Sentiment recognition of Italian elderly through domain adaptation on cross-corpus speech dataset	Nov 14, 2022	Cross-corpusDomain Adaptation	—Unverified	0
Speech Emotion Recognition Based on Self-Attention Weight Correction for Acoustic and Text Features	Nov 8, 2022	Emotion RecognitionMultimodal Emotion Recognition	—Unverified	0

Show:10 25 50

← PrevPage 9 of 18Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified