Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 431 papers

Title	Date	Tasks	Status
Disentangling Prosody Representations with Unsupervised Speech Reconstruction	Dec 14, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Analysis of constant-Q filterbank based representations for speech emotion recognition	Nov 29, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Privacy against Real-Time Speech Emotion Detection via Acoustic Adversarial Evasion of Machine Learning	Nov 17, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Improving Speech Emotion Recognition with Unsupervised Speaking Style Transfer	Nov 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Sentiment recognition of Italian elderly through domain adaptation on cross-corpus speech dataset	Nov 14, 2022	Cross-corpusDomain Adaptation	—Unverified
Describing emotions with acoustic property prompts for speech emotion recognition	Nov 14, 2022	Emotion RecognitionRetrieval	—Unverified
Speech Emotion Recognition Based on Self-Attention Weight Correction for Acoustic and Text Features	Nov 8, 2022	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
Multilingual Speech Emotion Recognition With Multi-Gating Mechanism and Neural Architecture Search	Oct 31, 2022	Emotion RecognitionNeural Architecture Search	—Unverified
Unifying the Discrete and Continuous Emotion labels for Speech Emotion Recognition	Oct 29, 2022	Emotion RecognitionMulti-Task Learning	—Unverified
Effect of different splitting criteria on the performance of speech emotion recognition	Oct 26, 2022	Emotion RecognitionSentence	—Unverified
Pretrained audio neural networks for Speech emotion recognition in Portuguese	Oct 26, 2022	Data AugmentationEmotion Recognition	CodeCode Available
Knowledge Transfer For On-Device Speech Emotion Recognition with Neural Structured Learning	Oct 26, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
Speech Emotion Recognition via an Attentive Time-Frequency Neural Network	Oct 22, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
End-to-End Label Uncertainty Modeling in Speech Emotion Recognition using Bayesian Neural Networks and Label Distribution Learning	Sep 30, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
Self-Supervised Attention Networks and Uncertainty Loss Weighting for Multi-Task Emotion Recognition on Vocal Bursts	Sep 15, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition using Supervised Deep Recurrent System for Mental Health Monitoring	Aug 26, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Improving Speech Emotion Recognition Through Focus and Calibration Attention Mechanisms	Aug 21, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Representation Learning with Graph Neural Networks for Speech Emotion Recognition	Aug 21, 2022	Emotion RecognitionGraph Neural Network	—Unverified
Feature Selection Enhancement and Feature Space Visualization for Speech-Based Emotion Recognition	Aug 19, 2022	Emotion Recognitionfeature selection	—Unverified
Non-Contrastive Self-supervised Learning for Utterance-Level Information Extraction from Speech	Aug 10, 2022	Alzheimer's Disease DetectionEmotion Recognition	—Unverified
Domain Specific Wav2vec 2.0 Fine-tuning For The SE&R 2022 Challenge	Jul 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
Multimodal Speech Emotion Recognition using Cross Attention with Aligned Audio and Text	Jul 26, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Label Uncertainty Modeling and Prediction for Speech Emotion Recognition using t-Distributions	Jul 25, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
CTL-MTNet: A Novel CapsNet and Transfer Learning-Based Mixed Task Net for the Single-Corpus and Cross-Corpus Speech Emotion Recognition	Jul 18, 2022	Cross-corpusEmotion Recognition	CodeCode Available
Semi-supervised cross-lingual speech emotion recognition	Jul 14, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Domain Adapting Deep Reinforcement Learning for Real-world Speech Emotion Recognition	Jul 7, 2022	Cross-corpusDeep Reinforcement Learning	—Unverified
A cross-corpus study on speech emotion recognition	Jul 5, 2022	Cross-corpusEmotion Recognition	—Unverified
A Graph Isomorphism Network with Weighted Multiple Aggregators for Speech Emotion Recognition	Jul 3, 2022	Emotion RecognitionGraph Neural Network	—Unverified
SpeechEQ: Speech Emotion Recognition based on Multi-scale Unified Datasets and Multitask Learning	Jun 27, 2022	Emotion RecognitionPhoneme Recognition	—Unverified
Multitask vocal burst modeling with ResNets and pre-trained paralinguistic Conformers	Jun 24, 2022	Emotion RecognitionEvent Detection	—Unverified
Analysis of Self-Supervised Learning and Dimensionality Reduction Methods in Clustering-Based Active Learning for Speech Emotion Recognition	Jun 21, 2022	Active LearningClustering	CodeCode Available
AHD ConvNet for Speech Emotion Classification	Jun 10, 2022	ClassificationEmotion Classification	—Unverified
SyntAct: A Synthesized Database of Basic Emotions	Jun 1, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Acoustic-to-articulatory Speech Inversion with Multi-task Learning	May 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Learning Rate Curriculum	May 18, 2022	Audio ClassificationQNLI	CodeCode Available
Emotion Recognition In Persian Speech Using Deep Neural Networks	Apr 28, 2022	BIG-bench Machine LearningEmotion Recognition	—Unverified
Real-time Speech Emotion Recognition Based on Syllable-Level Feature Extraction	Apr 25, 2022	Cross-corpusEmotion Recognition	—Unverified
Learning Speech Emotion Representations in the Quaternion Domain	Apr 5, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
Probing Speech Emotion Recognition Transformers for Linguistic Knowledge	Apr 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Neural Architecture Search for Speech Emotion Recognition	Mar 31, 2022	Emotion RecognitionNeural Architecture Search	—Unverified
CTA-RNN: Channel and Temporal-wise Attention RNN Leveraging Pre-trained ASR Embeddings for Speech Emotion Recognition	Mar 31, 2022	Cross-corpusEmotion Recognition	—Unverified
Continuous Metric Learning For Transferable Speech Emotion Recognition and Embedding Across Low-resource Languages	Mar 28, 2022	DenoisingEmotion Classification	—Unverified
Towards Transferable Speech Emotion Representation: On loss functions for cross-lingual latent representations	Mar 28, 2022	ClassificationDenoising	—Unverified
A Dataset for Speech Emotion Recognition in Greek Theatrical Plays	Mar 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
A Speech Representation Anonymization Framework via Selective Noise Perturbation	Mar 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
EmotionNAS: Two-stream Neural Architecture Search for Speech Emotion Recognition	Mar 25, 2022	Emotion RecognitionNeural Architecture Search	—Unverified
Robust Federated Learning Against Adversarial Attacks for Speech Emotion Recognition	Mar 9, 2022	Emotion RecognitionFederated Learning	—Unverified
Attention-based Region of Interest (ROI) Detection for Speech Emotion Recognition	Mar 3, 2022	Emotion RecognitionMulti-class Classification	—Unverified
Speech Emotion Recognition using Self-Supervised Features	Feb 7, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speaker Normalization for Self-supervised Speech Emotion Recognition	Feb 2, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified

Show:10 25 50

← PrevPage 6 of 9Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified