Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 431 papers

Title	Date	Tasks	Status
WavFusion: Towards wav2vec 2.0 Multimodal Speech Emotion Recognition	Dec 7, 2024	DiversityEmotion Recognition	—Unverified
A Cross-Corpus Speech Emotion Recognition Method Based on Supervised Contrastive Learning	Nov 25, 2024	Contrastive LearningCross-corpus	—Unverified
Once More, With Feeling: Measuring Emotion of Acting Performances in Contemporary American Film	Nov 15, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Improvement and Implementation of a Speech Emotion Recognition Model Based on Dual-Layer LSTM	Nov 14, 2024	Emotion RecognitionSentiment Analysis	—Unverified
Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition	Nov 14, 2024	Emotion RecognitionModel Compression	—Unverified
Multi-modal Speech Emotion Recognition via Feature Distribution Adaptation Network	Oct 29, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
Improving Speech-based Emotion Recognition with Contextual Utterance Analysis and LLMs	Oct 27, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
A Survey on Speech Large Language Models	Oct 24, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Investigating Effective Speaker Property Privacy Protection in Federated Learning for Speech Emotion Recognition	Oct 17, 2024	Emotion RecognitionFederated Learning	—Unverified
Multi-View Multi-Task Modeling with Speech Foundation Models for Speech Forensic Tasks	Oct 16, 2024	Age EstimationEmotion Recognition	—Unverified
Enhancing Speech Emotion Recognition through Segmental Average Pooling of Self-Supervised Learning Features	Oct 16, 2024	Emotion RecognitionSelf-Supervised Learning	—Unverified
SeQuiFi: Mitigating Catastrophic Forgetting in Speech Emotion Recognition with Sequential Class-Finetuning	Oct 16, 2024	Continual LearningEmotion Recognition	—Unverified
Can We Estimate Purchase Intention Based on Zero-shot Speech Emotion Recognition?	Oct 12, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Audio Explanation Synthesis with Generative Foundation Models	Oct 10, 2024	BenchmarkingDecision Making	CodeCode Available
A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition	Oct 6, 2024	Domain AdaptationEmotion Recognition	—Unverified
Multi-Scale Temporal Transformer For Speech Emotion Recognition	Oct 1, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Two-stage Framework for Robust Speech Emotion Recognition Using Target Speaker Extraction in Human Speech Noise Conditions	Sep 29, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Exploring Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations	Sep 26, 2024	Domain AdaptationDomain Generalization	—Unverified
Cross-Lingual Speech Emotion Recognition: Humans vs. Self-Supervised Models	Sep 25, 2024	Emotion Recognitionparameter-efficient fine-tuning	CodeCode Available
Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection	Sep 17, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
Personalized Speech Emotion Recognition in Human-Robot Interaction using Vision Transformers	Sep 16, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
TBDM-Net: Bidirectional Dense Networks with Gender Information for Speech Emotion Recognition	Sep 16, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
Stimulus Modality Matters: Impact of Perceptual Evaluations from Different Modalities on Speech Emotion Recognition System Performance	Sep 16, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Explaining Deep Learning Embeddings for Speech Emotion Recognition by Predicting Interpretable Acoustic Features	Sep 14, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
Turbo your multi-modal classification with contrastive learning	Sep 14, 2024	ClassificationContrastive Learning	—Unverified
Leveraging Content and Acoustic Representations for Speech Emotion Recognition	Sep 9, 2024	Emotion RecognitionLanguage Modelling	CodeCode Available
Consensus-based Distributed Quantum Kernel Learning for Speech Recognition	Sep 9, 2024	Computational EfficiencyEmotion Recognition	—Unverified
Searching for Effective Preprocessing Method and CNN-based Architecture with Efficient Channel Attention on Speech Emotion Recognition	Sep 6, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
The Whole Is Bigger Than the Sum of Its Parts: Modeling Individual Annotators to Capture Emotional Variability	Aug 21, 2024	Cross-corpusEmotion Recognition	CodeCode Available
Audio Enhancement for Computer Audition -- An Iterative Training Paradigm Using Sample Importance	Aug 12, 2024	Acoustic Scene ClassificationAutomatic Speech Recognition	—Unverified
Conditioning LLMs with Emotion in Neural Machine Translation	Aug 6, 2024	Emotion RecognitionMachine Translation	—Unverified
Describe Where You Are: Improving Noise-Robustness for Speech Emotion Recognition with Text Description of the Environment	Jul 25, 2024	Emotion RecognitionLanguage Modeling	—Unverified
EMO-Codec: An In-Depth Look at Emotion Preservation capacity of Legacy and Neural Codec Models With Subjective and Objective Evaluations	Jul 22, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
PCQ: Emotion Recognition in Speech via Progressive Channel Querying	Jul 17, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
BSC-UPC at EmoSPeech-IberLEF2024: Attention Pooling for Emotion Recognition	Jul 17, 2024	Emotion RecognitionPosition	CodeCode Available
MSP-Podcast SER Challenge 2024: L'antenne du Ventoux Multimodal Self-Supervised Learning for Speech Emotion Recognition	Jul 8, 2024	AttributeEmotion Recognition	—Unverified
A Layer-Anchoring Strategy for Enhancing Cross-Lingual Speech Emotion Recognition	Jul 6, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Are you sure? Analysing Uncertainty Quantification Approaches for Real-world Speech Emotion Recognition	Jul 1, 2024	Emotion RecognitionPrediction	CodeCode Available
Breaking Resource Barriers in Speech Emotion Recognition via Data Distillation	Jun 21, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Speech Emotion Recognition Using CNN and Its Use Case in Digital Healthcare	Jun 15, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Double Multi-Head Attention Multimodal System for Odyssey 2024 Speech Emotion Recognition Challenge	Jun 15, 2024	Emotion RecognitionPosition	—Unverified
What Does it Take to Generalize SER Model Across Datasets? A Comprehensive Benchmark	Jun 14, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified
Exploring Multilingual Unseen Speaker Emotion Recognition: Leveraging Co-Attention Cues in Multitask Learning	Jun 13, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
Exploring Self-Supervised Multi-view Contrastive Learning for Speech Emotion Recognition with Limited Annotations	Jun 12, 2024	Contrastive LearningEmotion Recognition	—Unverified
Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques	Jun 12, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available
ExHuBERT: Enhancing HuBERT Through Block Extension and Fine-Tuning on 37 Emotion Datasets	Jun 11, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
INTERSPEECH 2009 Emotion Challenge Revisited: Benchmarking 15 Years of Progress in Speech Emotion Recognition	Jun 10, 2024	BenchmarkingEmotion Recognition	CodeCode Available
Enrolment-based personalisation for improving individual-level fairness in speech emotion recognition	Jun 10, 2024	Emotion RecognitionFairness	CodeCode Available
Emo-bias: A Large Scale Evaluation of Social Bias on Speech Emotion Recognition	Jun 7, 2024	Emotion RecognitionSelf-Supervised Learning	—Unverified
Multi-Microphone Speech Emotion Recognition using the Hierarchical Token-semantic Audio Transformer Architecture	Jun 5, 2024	Emotion ClassificationEmotion Recognition	—Unverified

Show:10 25 50

← PrevPage 3 of 9Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified