Multimodal Emotion Recognition

This is a leaderboard for multimodal emotion recognition on the IEMOCAP dataset. The modality abbreviations are A: Acoustic T: Text V: Visual

Please include the modality in the bracket after the model name.

All models must use standard five emotion categories and are evaluated in standard leave-one-session-out (LOSO). See the papers for references.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 180 papers

Title	Date	Tasks	Status	Hype
R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcement Learning	Mar 7, 2025	Emotion RecognitionLanguage Modeling	CodeCode Available	5
Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning	Jun 17, 2024	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	4
SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognition	Aug 20, 2024	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	4
MER 2024: Semi-Supervised Learning, Noise Robustness, and Open-Vocabulary Multimodal Emotion Recognition	Apr 26, 2024	Emotion RecognitionMulti-Label Learning	CodeCode Available	3
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild	Apr 13, 2024	cross-modal alignmentDynamic Facial Expression Recognition	CodeCode Available	2
MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised Learning	Apr 18, 2023	Emotion RecognitionMulti-Label Learning	CodeCode Available	2
Recent Trends of Multimodal Affective Computing: A Survey from NLP Perspective	Sep 11, 2024	Aspect-Based Sentiment AnalysisEmotion Recognition	CodeCode Available	2
Hierarchical Hypercomplex Network for Multimodal Emotion Recognition	Sep 13, 2024	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	2
PHemoNet: A Multimodal Network for Physiological Signals	Sep 13, 2024	Brain Computer InterfaceEEG	CodeCode Available	2
Multimodal Emotion Recognition with High-level Speech and Text Features	Sep 29, 2021	DisentanglementEmotion Recognition	CodeCode Available	1
Multilogue-Net: A Context Aware RNN for Multi-modal Emotion Detection and Sentiment Analysis in Conversation	Feb 19, 2020	Emotion RecognitionEmotion Recognition in Conversation	CodeCode Available	1
Modality-Transferable Emotion Embeddings for Low-Resource Multimodal Emotion Recognition	Sep 21, 2020	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	1
Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention	Jul 26, 2024	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	1
Music Mood Detection Based On Audio And Lyrics With Deep Neural Net	Sep 19, 2018	Multimodal Emotion RecognitionMusic Emotion Recognition	CodeCode Available	1
MultiMAE-DER: Multimodal Masked Autoencoder for Dynamic Emotion Recognition	Apr 28, 2024	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	1
Predicting emotion from music videos: exploring the relative contribution of visual and auditory information to affective responses	Feb 19, 2022	DescriptiveEmotion Recognition	CodeCode Available	1
Joyful: Joint Modality Fusion and Graph Contrastive Learning for Multimodal Emotion Recognition	Nov 18, 2023	Contrastive LearningEmotion Recognition	CodeCode Available	1
Hypercomplex Multimodal Emotion Recognition from EEG and Peripheral Physiological Signals	Oct 11, 2023	EEGElectroencephalogram (EEG)	CodeCode Available	1
Group Gated Fusion on Attention-based Bidirectional Alignment for Multimodal Emotion Recognition	Jan 17, 2022	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	1
Jointly Fine-Tuning “BERT-like” Self Supervised Models to Improve Multimodal Speech Emotion Recognition	Aug 15, 2020	Emotion RecognitionMultimodal Deep Learning	CodeCode Available	1
Decoupled Multimodal Distilling for Emotion Recognition	Mar 24, 2023	Emotion RecognitionKnowledge Distillation	CodeCode Available	1
Latent Distribution Decoupling: A Probabilistic Framework for Uncertainty-Aware Multimodal Emotion Recognition	Feb 19, 2025	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	1
DialogueRNN: An Attentive RNN for Emotion Detection in Conversations	Nov 1, 2018	Emotion ClassificationEmotion Recognition in Conversation	CodeCode Available	1
MMER: Multimodal Multi-task Learning for Speech Emotion Recognition	Mar 31, 2022	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	1
MSAF: Multimodal Split Attention Fusion	Dec 13, 2020	Action RecognitionEmotion Recognition	CodeCode Available	1
COGMEN: COntextualized GNN based Multimodal Emotion recognitioN	May 5, 2022	Emotion RecognitionEmotion Recognition in Conversation	CodeCode Available	1
Milmer: a Framework for Multiple Instance Learning based Multimodal Emotion Recognition	Feb 1, 2025	EEGElectroencephalogram (EEG)	CodeCode Available	1
Multimodal Emotion Recognition with Transformer-Based Self Supervised Feature Fusion	Oct 27, 2020	Emotion RecognitionMultimodal Deep Learning	CodeCode Available	1
Multimodal Emotion Recognition with Modality-Pairwise Unsupervised Contrastive Loss	Jul 23, 2022	Cultural Vocal Bursts Intensity PredictionEmotion Recognition	CodeCode Available	1
Multimodal Information Bottleneck: Learning Minimal Sufficient Unimodal and Multimodal Representations	Oct 31, 2022	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	1
A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition	Mar 28, 2022	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	1
Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction	Nov 8, 2023	Emotion RecognitionGraph Neural Network	CodeCode Available	1
Exploiting modality-invariant feature for robust multimodal emotion recognition with missing modalities	Oct 27, 2022	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	1
FV2ES: A Fully End2End Multimodal System for Fast Yet Effective Video Emotion Recognition Inference	Sep 21, 2022	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	1
Emotion Recognition in Audio and Video Using Deep Neural Networks	Jun 15, 2020	Deep LearningEmotion Recognition	CodeCode Available	1
A Transformer-Based Model With Self-Distillation for Multimodal Emotion Recognition in Conversations	Oct 31, 2023	Emotion RecognitionEmotion Recognition in Conversation	CodeCode Available	1
Cooperative Sentiment Agents for Multimodal Sentiment Analysis	Apr 19, 2024	DisentanglementEmotion Recognition	CodeCode Available	1
Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition	Nov 9, 2021	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	1
GPT-4V with Emotion: A Zero-shot Benchmark for Generalized Emotion Recognition	Dec 7, 2023	Emotion RecognitionFacial Emotion Recognition	CodeCode Available	1
GraphCFC: A Directed Graph Based Cross-Modal Feature Complementation Approach for Multimodal Conversational Emotion Recognition	Jul 6, 2022	Emotion ClassificationEmotion Recognition	CodeCode Available	1
A Facial Expression-Aware Multimodal Multi-task Learning Framework for Emotion Recognition in Multi-party Conversations	Jul 1, 2023	Emotion RecognitionEmotion Recognition in Conversation	CodeCode Available	1
Curriculum Learning Meets Directed Acyclic Graph for Multimodal Emotion Recognition	Feb 27, 2024	Emotion RecognitionEmotion Recognition in Conversation	CodeCode Available	1
Towards Emotion Analysis in Short-form Videos: A Large-Scale Dataset and Baseline	Nov 29, 2023	audio-visual learningForm	CodeCode Available	1
Joint Multimodal Transformer for Emotion Recognition in the Wild	Mar 15, 2024	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	1
Tracing Intricate Cues in Dialogue: Joint Graph Structure and Sentiment Dynamics for Multimodal Emotion Recognition	Jul 31, 2024	Emotion RecognitionEmotion Recognition in Conversation	CodeCode Available	1
EmoVerse: Exploring Multimodal Large Language Models for Sentiment and Emotion Understanding	Dec 11, 2024	Depression DetectionEmotion-Cause Pair Extraction	CodeCode Available	1
A proposal for Multimodal Emotion Recognition using aural transformers and Action Units on RAVDESS dataset	Dec 30, 2021	Autonomous DrivingEmotion Recognition	CodeCode Available	1
A cross-modal fusion network based on self-attention and residual structure for multimodal emotion recognition	Nov 3, 2021	Emotion RecognitionMultimodal Emotion Recognition	CodeCode Available	1
CFN-ESA: A Cross-Modal Fusion Network with Emotion-Shift Awareness for Dialogue Emotion Recognition	Jul 28, 2023	Emotion RecognitionEmotion Recognition in Conversation	CodeCode Available	1
Enhancing Modal Fusion by Alignment and Label Matching for Multimodal Emotion Recognition	Aug 18, 2024	Contrastive LearningEmotion Recognition	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 4Next →

All datasets IEMOCAP-4 MELD IEMOCAP CMU-MOSEI-Sentiment CMU-MOSEI-Sentiment-3 Expressive hands and faces dataset (EHF).MELD-Sentiment

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GraphSmile	Weighted F1	86.52	—	Unverified
2	Joyful	Weighted F1	85.7	—	Unverified
3	COGMEN	Weighted F1	84.5	—	Unverified
4	DANN	Accuracy	82.7	—	Unverified
5	MMER	Accuracy	81.7	—	Unverified
6	PATHOSnet v2	Accuracy	80.4	—	Unverified
7	Self-attention weight correction (A+T)	Accuracy	76.8	—	Unverified
8	CHFusion	Accuracy	76.5	—	Unverified
9	bc-LSTM	Weighted F1	74.1	—	Unverified
10	Audio + Text (Stage III)	F1	70.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GraphSmile	Weighted F1	66.71	—	Unverified
2	Audio + Text (Stage III)	Weighted F1	65.8	—	Unverified
3	Joyful	Weighted F1	61.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GraphSmile	Weighted F1	72.81	—	Unverified
2	Joyful	Weighted F1	70.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GraphSmile	Weighted F1	44.93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GraphSmile	Weighted F1	66.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMPLify-X	v2v error	52.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GraphSmile	Weighted F1	74.31	—	Unverified