Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–225 of 431 papers

Title	Date	Tasks	Status
Speech Emotion Recognition Based on Self-Attention Weight Correction for Acoustic and Text Features	Nov 8, 2022	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
Speech Emotion Recognition Considering Local Dynamic Features	Mar 21, 2018	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Breaking Resource Barriers in Speech Emotion Recognition via Data Distillation	Jun 21, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition Using CNN and Its Use Case in Digital Healthcare	Jun 15, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition Using Deep Sparse Auto-Encoder Extreme Learning Machine with a New Weighting Scheme and Spectro-Temporal Features Along with Classical Feature Selection and A New Quantum-Inspired Dimension Reduction Method	Nov 13, 2021	ClassificationDimensionality Reduction	—Unverified
Speech Emotion Recognition Using Quaternion Convolutional Neural Networks	Oct 31, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition using Self-Supervised Features	Feb 7, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition using Supervised Deep Recurrent System for Mental Health Monitoring	Aug 26, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition using Support Vector Machine	Feb 3, 2020	ClassificationEmotion Recognition	—Unverified
Speech Emotion Recognition via an Attentive Time-Frequency Neural Network	Oct 22, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition via Contrastive Loss under Siamese Networks	Oct 23, 2019	Emotion Recognitionfeature selection	—Unverified
結合非線性動態特徵之語音情緒辨識(Speech Emotion Recognition via Nonlinear Dynamical Features)[In Chinese]	Oct 1, 2015	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition with Distilled Prosodic and Linguistic Affect Representations	Sep 9, 2023	Emotion RecognitionKnowledge Distillation	—Unverified
Speech Emotion Recognition with Dual-Sequence LSTM Architecture	Oct 20, 2019	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition with Multiscale Area Attention and Data Augmentation	Feb 3, 2021	Data AugmentationEmotion Recognition	—Unverified
SpeechEQ: Speech Emotion Recognition based on Multi-scale Unified Datasets and Multitask Learning	Jun 27, 2022	Emotion RecognitionPhoneme Recognition	—Unverified
Speech Swin-Transformer: Exploring a Hierarchical Transformer with Shifted Windows for Speech Emotion Recognition	Jan 19, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
STAA-Net: A Sparse and Transferable Adversarial Attack for Speech Emotion Recognition	Feb 2, 2024	Adversarial AttackEmotion Recognition	—Unverified
Stimulus Modality Matters: Impact of Perceptual Evaluations from Different Modalities on Speech Emotion Recognition System Performance	Sep 16, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Study on Feature Subspace of Archetypal Emotions for Speech Emotion Recognition	Nov 17, 2016	Emotion RecognitionGeneral Classification	—Unverified
Supervised Contrastive Learning with Nearest Neighbor Search for Speech Emotion Recognition	Aug 31, 2023	Contrastive LearningEmotion Recognition	—Unverified
Support Super-Vector Machines in Automatic Speech Emotion Recognition	Oct 1, 2016	Emotion RecognitionSpeech Emotion Recognition	—Unverified
SyntAct: A Synthesized Database of Basic Emotions	Jun 1, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
TemporalAugmenter: An Ensemble Recurrent Based Deep Learning Approach for Signal Classification	Jan 13, 2024	Data IntegrationEmotion Recognition	—Unverified
Testing Correctness, Fairness, and Robustness of Speech Emotion Recognition Models	Dec 11, 2023	Emotion RecognitionFairness	—Unverified

Show:10 25 50

← PrevPage 9 of 18Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified