Multimodal Emotion Recognition

This is a leaderboard for multimodal emotion recognition on the IEMOCAP dataset. The modality abbreviations are A: Acoustic T: Text V: Visual

Please include the modality in the bracket after the model name.

All models must use standard five emotion categories and are evaluated in standard leave-one-session-out (LOSO). See the papers for references.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–125 of 180 papers

Title	Date	Tasks	Status
Video Emotion Open-vocabulary Recognition Based on Multimodal Large Language Model	Aug 21, 2024	Emotion RecognitionLanguage Modeling	—Unverified
Accommodating Missing Modalities in Time-Continuous Multimodal Emotion Recognition	Nov 16, 2023	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
A Comparison of Time-based Models for Multimodal Emotion Recognition	Jun 22, 2023	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
A Contextualized Real-Time Multimodal Emotion Recognition for Conversational Agents using Graph Convolutional Networks in Reinforcement Learning	Oct 24, 2023	Emotion ClassificationEmotion Recognition	—Unverified
Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition	Dec 28, 2023	Contrastive LearningEmotion Recognition	—Unverified
A Multibias-mitigated and Sentiment Knowledge Enriched Transformer for Debiasing in Multimodal Conversational Emotion Recognition	Jul 17, 2022	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
A Multimodal Emotion Recognition System: Integrating Facial Expressions, Body Movement, Speech, and Spoken Language	Dec 23, 2024	DiagnosticEmotion Recognition	—Unverified
Analyzing the Influence of Dataset Composition for Emotion Recognition	Mar 5, 2021	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
An Audio-Video Deep and Transfer Learning Framework for Multimodal Emotion Recognition in the wild	Oct 7, 2020	Deep LearningEmotion Recognition	—Unverified
An Empirical Study and Improvement for Speech Emotion Recognition	Apr 8, 2023	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
A Novel Approach to for Multimodal Emotion Recognition : Multimodal semantic information fusion	Feb 12, 2025	Contrastive LearningEmotion Recognition	—Unverified
A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition	Jul 15, 2025	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
A Two-Stage Multimodal Emotion Recognition Model Based on Graph Contrastive Learning	Jan 3, 2024	ClassificationContrastive Learning	—Unverified
A Unified Transformer-based Network for multimodal Emotion Recognition	Aug 27, 2023	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
BeMERC: Behavior-Aware MLLM-based Framework for Multimodal Emotion Recognition in Conversation	Mar 31, 2025	Emotion RecognitionEmotion Recognition in Conversation	—Unverified
Bias and Fairness on Multimodal Emotion Detection Algorithms	May 11, 2022	Emotion RecognitionFairness	—Unverified
CMATH: Cross-Modality Augmented Transformer with Hierarchical Variational Distillation for Multimodal Emotion Recognition in Conversation	Nov 15, 2024	Emotion RecognitionEmotion Recognition in Conversation	—Unverified
COLD Fusion: Calibrated and Ordinal Latent Distribution Fusion for Uncertainty-Aware Multimodal Emotion Recognition	Jun 12, 2022	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
Context-aware Cascade Attention-based RNN for Video Emotion Recognition	May 30, 2018	DecoderEmotion Classification	—Unverified
Context-Dependent Domain Adversarial Neural Network for Multimodal Emotion Recognition	Oct 28, 2020	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
Contextual Dependencies in Time-Continuous Multidimensional Affect Recognition	May 1, 2018	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
Continuous Multimodal Emotion Recognition Approach for AVEC 2017	Sep 18, 2017	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
Continuous-Time Audiovisual Fusion with Recurrence vs. Attention for In-The-Wild Affect Recognition	Mar 24, 2022	Arousal EstimationEmotion Recognition	—Unverified
Convolutional Attention Networks for Multimodal Emotion Recognition from Speech and Text Data	May 17, 2018	Emotion RecognitionMultimodal Emotion Recognition	—Unverified
Cross-modal Context Fusion and Adaptive Graph Convolutional Network for Multimodal Conversational Emotion Recognition	Jan 25, 2025	cross-modal alignmentEmotion Classification	—Unverified

Show:10 25 50

← PrevPage 5 of 8Next →

All datasets IEMOCAP-4 MELD IEMOCAP CMU-MOSEI-Sentiment CMU-MOSEI-Sentiment-3 Expressive hands and faces dataset (EHF).MELD-Sentiment

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GraphSmile	Weighted F1	86.52	—	Unverified
2	Joyful	Weighted F1	85.7	—	Unverified
3	COGMEN	Weighted F1	84.5	—	Unverified
4	DANN	Accuracy	82.7	—	Unverified
5	MMER	Accuracy	81.7	—	Unverified
6	PATHOSnet v2	Accuracy	80.4	—	Unverified
7	Self-attention weight correction (A+T)	Accuracy	76.8	—	Unverified
8	CHFusion	Accuracy	76.5	—	Unverified
9	bc-LSTM	Weighted F1	74.1	—	Unverified
10	Audio + Text (Stage III)	F1	70.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GraphSmile	Weighted F1	66.71	—	Unverified
2	Audio + Text (Stage III)	Weighted F1	65.8	—	Unverified
3	Joyful	Weighted F1	61.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GraphSmile	Weighted F1	72.81	—	Unverified
2	Joyful	Weighted F1	70.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GraphSmile	Weighted F1	44.93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GraphSmile	Weighted F1	66.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMPLify-X	v2v error	52.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GraphSmile	Weighted F1	74.31	—	Unverified