Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 431 papers

Title	Date	Tasks	Status	Hype
Dynamic Parameter Memory: Temporary LoRA-Enhanced LLM for Long-Sequence Emotion Recognition in Conversation	Jul 11, 2025	4kEmotion Recognition	CodeCode Available	0
MATER: Multi-level Acoustic and Textual Emotion Representation for Interpretable Speech Emotion Recognition	Jun 24, 2025	AttributeEmotion Recognition	—Unverified	0
Developing a High-performance Framework for Speech Emotion Recognition in Naturalistic Conditions Challenge for Emotional Attribute Prediction	Jun 12, 2025	AttributeEmotion Recognition	—Unverified	0
MEDUSA: A Multimodal Deep Fusion Multi-Stage Training Framework for Speech Emotion Recognition in Naturalistic Conditions	Jun 11, 2025	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0
Multi-Teacher Language-Aware Knowledge Distillation for Multilingual Speech Emotion Recognition	Jun 10, 2025	Emotion RecognitionKnowledge Distillation	CodeCode Available	0
CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition	Jun 6, 2025	Emotion RecognitionFairness	—Unverified	0
EMO-Debias: Benchmarking Gender Debiasing Techniques in Multi-Label Speech Emotion Recognition	Jun 5, 2025	BenchmarkingEmotion Recognition	—Unverified	0
HYFuse: Aligning Heterogeneous Speech Pre-Trained Representations in Hyperbolic Space for Speech Emotion Recognition	Jun 3, 2025	Emotion RecognitionRepresentation Learning	—Unverified	0
Investigating the Impact of Word Informativeness on Speech Emotion Recognition	Jun 2, 2025	Emotion RecognitionInformativeness	—Unverified	0
Are Mamba-based Audio Foundation Models the Best Fit for Non-Verbal Emotion Recognition?	Jun 2, 2025	Emotion RecognitionMamba	—Unverified	0
Towards Machine Unlearning for Paralinguistic Speech Processing	Jun 2, 2025	Depression DetectionEmotion Recognition	—Unverified	0
Enhancing Speech Emotion Recognition with Graph-Based Multimodal Fusion and Prosodic Features for the Speech Emotion Recognition in Naturalistic Conditions Challenge at Interspeech 2025	Jun 2, 2025	Audio TaggingEmotion Recognition	—Unverified	0
Learning More with Less: Self-Supervised Approaches for Low-Resource Speech Emotion Recognition	Jun 1, 2025	Contrastive LearningEmotion Recognition	—Unverified	0
Source Tracing of Synthetic Speech Systems Through Paralinguistic Pre-Trained Representations	Jun 1, 2025	Emotion RecognitionRhythm	—Unverified	0
PARROT: Synergizing Mamba and Attention-based SSL Pre-Trained Models via Parallel Branch Hadamard Optimal Transport for Speech Emotion Recognition	Jun 1, 2025	Emotion RecognitionMamba	—Unverified	0
MELT: Towards Automated Multimodal Emotion Data Annotation by Leveraging LLM Embedded Knowledge	May 30, 2025	Emotion RecognitionSelf-Supervised Learning	CodeCode Available	0
Can Emotion Fool Anti-spoofing?	May 29, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
EmoSphere-SER: Enhancing Speech Emotion Recognition Through Spherical Representation with Auxiliary Classification	May 26, 2025	Emotion Recognitionregression	CodeCode Available	2
Improving Speech Emotion Recognition Through Cross Modal Attention Alignment and Balanced Stacking Model	May 26, 2025	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0
ABHINAYA -- A System for Speech Emotion Recognition In Naturalistic Conditions Challenge	May 23, 2025	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0
CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training	May 23, 2025	Automatic Speech RecognitionEmotion Recognition	CodeCode Available	11
Meta-PerSER: Few-Shot Listener Personalized Speech Emotion Recognition via Meta-learning	May 22, 2025	Emotion RecognitionMeta-Learning	—Unverified	0
Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach	May 20, 2025	Emotion RecognitionFairness	—Unverified	0
CAMEO: Collection of Multilingual Emotional Speech Corpora	May 16, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Empirical Analysis of Asynchronous Federated Learning on Heterogeneous Devices: Efficiency, Fairness, and Privacy Trade-offs	May 11, 2025	Emotion RecognitionFairness	—Unverified	0
BERSting at the Screams: A Benchmark for Distanced, Emotional and Shouted Speech Recognition	Apr 30, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0
Large Language Models Meet Contrastive Learning: Zero-Shot Emotion Recognition Across Languages	Mar 25, 2025	Contrastive LearningDiversity	CodeCode Available	0
Deep Learning for Speech Emotion Recognition: A CNN Approach Utilizing Mel Spectrograms	Mar 25, 2025	Deep LearningEmotion Recognition	—Unverified	0
Coverage-Guaranteed Speech Emotion Recognition via Calibrated Uncertainty-Adaptive Prediction Sets	Mar 24, 2025	Conformal PredictionEmotion Recognition	—Unverified	0
Heterogeneous bimodal attention fusion for speech emotion recognition	Mar 9, 2025	Contrastive LearningEmotion Recognition	—Unverified	0
Bimodal Connection Attention Fusion for Speech Emotion Recognition	Mar 8, 2025	DecoderEmotion Recognition	—Unverified	0
Steering Language Model to Stable Speech Emotion Recognition via Contextual Perception and Chain of Thought	Feb 25, 2025	Emotion RecognitionLanguage Modeling	CodeCode Available	1
SigWavNet: Learning Multiresolution Signal Wavelet Network for Speech Emotion Recognition	Feb 1, 2025	DenoisingEmotion Recognition	CodeCode Available	1
OSUM: Advancing Open Speech Understanding Models with Limited Resources in Academia	Jan 23, 2025	Emotion RecognitionEvent Detection	CodeCode Available	3
EmoTech: A Multi-modal Speech Emotion Recognition Using Multi-source Low-level Information with Hybrid Recurrent Network	Jan 22, 2025	Emotion RecognitionMultimodal Emotion Recognition	—Unverified	0
EmoFormer: A Text-Independent Speech Emotion Recognition using a Hybrid Transformer-CNN model	Jan 22, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Representation Learning with Parameterised Quantum Circuits for Advancing Speech Emotion Recognition	Jan 21, 2025	Emotion ClassificationEmotion Recognition	—Unverified	0
Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition	Jan 6, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
learning discriminative features from spectrograms using center loss for speech emotion recognition	Jan 2, 2025	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Is It Still Fair? Investigating Gender Fairness in Cross-Corpus Speech Emotion Recognition	Jan 2, 2025	Cross-corpusEmotion Recognition	—Unverified	0
Metadata-Enhanced Speech Emotion Recognition: Augmented Residual Integration and Co-Attention in Two-Stage Fine-Tuning	Dec 30, 2024	Emotion RecognitionMulti-Task Learning	—Unverified	0
Mouth Articulation-Based Anchoring for Improved Cross-Corpus Speech Emotion Recognition	Dec 27, 2024	Cross-corpusEmotion Recognition	—Unverified	0
Enhanced Speech Emotion Recognition with Efficient Channel Attention Guided Deep CNN-BiLSTM Framework	Dec 13, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Emotional Vietnamese Speech-Based Depression Diagnosis Using Dynamic Attention Mechanism	Dec 11, 2024	Speech Emotion Recognition	CodeCode Available	0
WavFusion: Towards wav2vec 2.0 Multimodal Speech Emotion Recognition	Dec 7, 2024	DiversityEmotion Recognition	—Unverified	0
A Cross-Corpus Speech Emotion Recognition Method Based on Supervised Contrastive Learning	Nov 25, 2024	Contrastive LearningCross-corpus	—Unverified	0
Once More, With Feeling: Measuring Emotion of Acting Performances in Contemporary American Film	Nov 15, 2024	Emotion RecognitionSpeech Emotion Recognition	—Unverified	0
Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition	Nov 14, 2024	Emotion RecognitionModel Compression	—Unverified	0
Improvement and Implementation of a Speech Emotion Recognition Model Based on Dual-Layer LSTM	Nov 14, 2024	Emotion RecognitionSentiment Analysis	—Unverified	0
Multi-modal Speech Emotion Recognition via Feature Distribution Adaptation Network	Oct 29, 2024	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available	0

Show:10 25 50

← PrevPage 1 of 9Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Vertically long patch ViT	Accuracy	94.07	—	Unverified
2	ConformerXL-P	Accuracy	88.2	—	Unverified
3	CoordViT	Accuracy	82.96	—	Unverified
4	SepTr + LeRaC	Accuracy	70.95	—	Unverified
5	SepTr	Accuracy	70.47	—	Unverified
6	ResNet-18 + SPEL	Accuracy	68.12	—	Unverified
7	ViT	Accuracy	67.81	—	Unverified
8	ResNet-18 + PyNADA	Accuracy	65.15	—	Unverified
9	GRU	Accuracy	55.01	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SER with MTL	UA CV	0.78	—	Unverified
2	emoDARTS	UA CV	0.77	—	Unverified
3	LSTM+FC	WA	0.76	—	Unverified
4	TAP	WA CV	0.74	—	Unverified
5	SYSCOMB: BLSTMATT with CSA (session5)	UA	0.74	—	Unverified
6	Partially Fine-tuned HuBERT Large	WA CV	0.73	—	Unverified
7	CNN - DARTS	UA	0.7	—	Unverified
8	CNN+LSTM	UA	0.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.76	—	Unverified
2	wavlm	CCC	0.75	—	Unverified
3	w2v2-L-robust-12	CCC	0.75	—	Unverified
4	preCPC	CCC	0.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.67	—	Unverified
3	w2v2-L-robust-12	CCC	0.66	—	Unverified
4	preCPC	CCC	0.64	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	wav2small-Teacher	CCC	0.68	—	Unverified
2	wavlm	CCC	0.65	—	Unverified
3	w2v2-L-robust-12	CCC	0.64	—	Unverified
4	preCPC	CCC	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DAWN-hidden-SVM	Unweighted Accuracy (UA)	32.1	—	Unverified
2	Wav2Small-VAD-SVM	Unweighted Accuracy (UA)	23.3	—	Unverified
3	Speechbrain Wav2Vec2	Unweighted Accuracy (UA)	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emotion2vec+base	Weighted Accuracy (WA)	79.4	—	Unverified
2	emotion2vec+large	Weighted Accuracy (WA)	69.5	—	Unverified
3	emotion2vec	Weighted Accuracy (WA)	64.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Dusha baseline	Macro F1	0.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VGG-optiVMD	1:1 Accuracy	96.09	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PyResNet	Unweighted Accuracy (UA)	0.43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	emoDARTS	UA	0.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LSTM	CCC (Arousal)	0.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN (1D)	Unweighted Accuracy	65.2	—	Unverified