Speech Emotion Recognition

Speech Emotion Recognition is a task of speech processing and computational paralinguistics that aims to recognize and categorize the emotions expressed in spoken language. The goal is to determine the emotional state of a speaker, such as happiness, anger, sadness, or frustration, from their speech patterns, such as prosody, pitch, and rhythm.

For multimodal emotion recognition, please upload your result to Multimodal Emotion Recognition on IEMOCAP

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 431 papers

Title	Date	Tasks	Status
Dynamic Parameter Memory: Temporary LoRA-Enhanced LLM for Long-Sequence Emotion Recognition in Conversation	Jul 11, 2025	4kEmotion Recognition	CodeCode Available
MATER: Multi-level Acoustic and Textual Emotion Representation for Interpretable Speech Emotion Recognition	Jun 24, 2025	AttributeEmotion Recognition	—Unverified
Developing a High-performance Framework for Speech Emotion Recognition in Naturalistic Conditions Challenge for Emotional Attribute Prediction	Jun 12, 2025	AttributeEmotion Recognition	—Unverified
MEDUSA: A Multimodal Deep Fusion Multi-Stage Training Framework for Speech Emotion Recognition in Naturalistic Conditions	Jun 11, 2025	Emotion RecognitionSpeech Emotion Recognition	CodeCode Available
Multi-Teacher Language-Aware Knowledge Distillation for Multilingual Speech Emotion Recognition	Jun 10, 2025	Emotion RecognitionKnowledge Distillation	CodeCode Available
CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition	Jun 6, 2025	Emotion RecognitionFairness	—Unverified
EMO-Debias: Benchmarking Gender Debiasing Techniques in Multi-Label Speech Emotion Recognition	Jun 5, 2025	BenchmarkingEmotion Recognition	—Unverified
HYFuse: Aligning Heterogeneous Speech Pre-Trained Representations in Hyperbolic Space for Speech Emotion Recognition	Jun 3, 2025	Emotion RecognitionRepresentation Learning	—Unverified
Investigating the Impact of Word Informativeness on Speech Emotion Recognition	Jun 2, 2025	Emotion RecognitionInformativeness	—Unverified
Are Mamba-based Audio Foundation Models the Best Fit for Non-Verbal Emotion Recognition?	Jun 2, 2025	Emotion RecognitionMamba	—Unverified

Show:10 25 50

← PrevPage 1 of 44Next →

All datasets CREMA-D IEMOCAP RAVDESS MSP-Podcast (Activation)MSP-Podcast (Dominance)MSP-Podcast (Valence)BERSt RESD Dusha Crowd Dusha Podcast EMODB EmoDB Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VQ-MAE-S-12 (Frame) + Query2Emo	Accuracy	84.1	—	Unverified
2	CNN-X (Shallow CNN)	Accuracy	82.99	—	Unverified
3	xlsr-Wav2Vec2.0(FineTuning)	Accuracy	81.82	—	Unverified
4	CNN-14 (Fine-Tuning)	Accuracy	76.58	—	Unverified
5	AlexNet (FineTuning)	Accuracy	61.67	—	Unverified