Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 431 papers

Title	Date	Tasks	Status	Hype
Analysis of Self-Supervised Learning and Dimensionality Reduction Methods in Clustering-Based Active Learning for Speech Emotion Recognition	Jun 21, 2022	Active LearningClustering	CodeCode Available	0
AHD ConvNet for Speech Emotion Classification	Jun 10, 2022	ClassificationEmotion Classification	—Unverified	0
SyntAct: A Synthesized Database of Basic Emotions	Jun 1, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Acoustic-to-articulatory Speech Inversion with Multi-task Learning	May 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Learning Rate Curriculum	May 18, 2022	Audio ClassificationQNLI	CodeCode Available	0
Emotion Recognition In Persian Speech Using Deep Neural Networks	Apr 28, 2022	BIG-bench Machine LearningEmotion Recognition	—Unverified	0
Real-time Speech Emotion Recognition Based on Syllable-Level Feature Extraction	Apr 25, 2022	Cross-corpusEmotion Recognition	—Unverified	0
Speech Emotion Recognition with Global-Aware Fusion on Multi-scale Feature Representation	Apr 12, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
Learning Speech Emotion Representations in the Quaternion Domain	Apr 5, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0
Probing Speech Emotion Recognition Transformers for Linguistic Knowledge	Apr 1, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Neural Architecture Search for Speech Emotion Recognition	Mar 31, 2022	Emotion RecognitionNeural Architecture Search	—Unverified	0
MMER: Multimodal Multi-task Learning for Speech Emotion Recognition	Mar 31, 2022	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	1
CTA-RNN: Channel and Temporal-wise Attention RNN Leveraging Pre-trained ASR Embeddings for Speech Emotion Recognition	Mar 31, 2022	Cross-corpusEmotion Recognition	—Unverified	0
Speech Emotion Recognition with Co-Attention based Multi-level Acoustic Information	Mar 29, 2022	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
Continuous Metric Learning For Transferable Speech Emotion Recognition and Embedding Across Low-resource Languages	Mar 28, 2022	DenoisingEmotion Classification	—Unverified	0
Towards Transferable Speech Emotion Representation: On loss functions for cross-lingual latent representations	Mar 28, 2022	ClassificationDenoising	—Unverified	0
A Dataset for Speech Emotion Recognition in Greek Theatrical Plays	Mar 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
A Speech Representation Anonymization Framework via Selective Noise Perturbation	Mar 26, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
EmotionNAS: Two-stream Neural Architecture Search for Speech Emotion Recognition	Mar 25, 2022	Emotion RecognitionNeural Architecture Search	—Unverified	0
SepTr: Separable Transformer for Audio Spectrogram Processing	Mar 17, 2022	Audio ClassificationSpeech Emotion Recognition	CodeCode Available	1
Semi-FedSER: Semi-supervised Learning for Speech Emotion Recognition On Federated Learning using Multiview Pseudo-Labeling	Mar 15, 2022	Emotion RecognitionFederated Learning	CodeCode Available	1
Dawn of the transformer era in speech emotion recognition: closing the valence gap	Mar 14, 2022	Cross-corpusEmotion Recognition	CodeCode Available	2
Robust Federated Learning Against Adversarial Attacks for Speech Emotion Recognition	Mar 9, 2022	Emotion RecognitionFederated Learning	—Unverified	0
Attention-based Region of Interest (ROI) Detection for Speech Emotion Recognition	Mar 3, 2022	Emotion RecognitionMulti-class Classification	—Unverified	0
Speech Emotion Recognition using Self-Supervised Features	Feb 7, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Privacy-preserving Speech Emotion Recognition through Semi-Supervised Federated Learning	Feb 5, 2022	Emotion RecognitionFederated Learning	CodeCode Available	1
Speaker Normalization for Self-supervised Speech Emotion Recognition	Feb 2, 2022	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Self-supervised Graphs for Audio Representation Learning with Limited Labeled Data	Jan 31, 2022	Emotion RecognitionEvent Detection	CodeCode Available	0
Sentiment-Aware Automatic Speech Recognition pre-training for enhanced Speech Emotion Recognition	Jan 27, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Unsupervised Personalization of an Emotion Recognition System: The Unique Properties of the Externalization of Valence in Speech	Jan 19, 2022	Emotion RecognitionPrediction	—Unverified	0
A study on cross-corpus speech emotion recognition and data augmentation	Jan 10, 2022	Cross-corpusData Augmentation	—Unverified	0
A New Amharic Speech Emotion Dataset and Classification Benchmark	Jan 7, 2022	ClassificationEmotion Recognition	—Unverified	0
A proposal for Multimodal Emotion Recognition using aural transformers and Action Units on RAVDESS dataset	Dec 30, 2021	Autonomous DrivingEmotion Recognition	CodeCode Available	1
Novel Dual-Channel Long Short-Term Memory Compressed Capsule Networks for Emotion Recognition	Dec 26, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Attribute Inference Attack of Speech Emotion Recognition in Federated Learning Settings	Dec 26, 2021	AttributeEmotion Recognition	CodeCode Available	1
Classifying Emotional Utterances by Employing Multi-modal Speech Emotion Recognition	Dec 1, 2021	Emotion RecognitionGender Classification	—Unverified	0
Representation learning through cross-modal conditional teacher-student training for speech emotion recognition	Nov 30, 2021	Emotion ClassificationEmotion Recognition	—Unverified	0
A Case Study on the Independence of Speech Emotion Recognition in Bangla and English Languages using Language-Independent Prosodic Features	Nov 21, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Multimodal Emotion Recognition on RAVDESS Dataset Using Transfer Learning	Nov 18, 2021	Domain AdaptationEmotion Recognition	—Unverified	0
Biologically inspired speech emotion recognition	Nov 15, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Speech Emotion Recognition Using Deep Sparse Auto-Encoder Extreme Learning Machine with a New Weighting Scheme and Spectro-Temporal Features Along with Classical Feature Selection and A New Quantum-Inspired Dimension Reduction Method	Nov 13, 2021	ClassificationDimensionality Reduction	—Unverified	0
A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding	Nov 4, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Speech Emotion Recognition Using Quaternion Convolutional Neural Networks	Oct 31, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Fusing ASR Outputs in Joint Training for Speech Emotion Recognition	Oct 29, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
End-to-End Speech Emotion Recognition: Challenges of Real-Life Emergency Call Centers Data Recordings	Oct 28, 2021	Deep LearningEmotion Recognition	—Unverified	0
Multistage linguistic conditioning of convolutional layers for speech emotion recognition	Oct 13, 2021	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Exploring Wav2vec 2.0 fine-tuning for improved speech emotion recognition	Oct 12, 2021	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
Arabic Speech Emotion Recognition Employing Wav2vec2.0 and HuBERT Based on BAVED Dataset	Oct 9, 2021	Deep LearningEmotion Recognition	CodeCode Available	1
Light-SERNet: A lightweight fully convolutional neural network for speech emotion recognition	Oct 7, 2021	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	1
End-To-End Label Uncertainty Modeling for Speech-based Arousal Recognition Using Bayesian Neural Networks	Oct 7, 2021	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0

Show:10 25 50

← PrevPage 6 of 9Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified