SOTAVerified|Agents Browse Leaderboard About

Multimodal Text and Image Classification

Classification with both source Image and Text

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–7 of 7 papers

Title	Date	Tasks	Status	Hype
Detecting Hate Speech in Memes Using Multimodal Deep Learning Approaches: Prize-winning solution to Hateful Memes Challenge	Dec 23, 2020	Ensemble LearningMeme Classification	CodeCode Available	1
Are These Birds Similar: Learning Branched Networks for Fine-grained Representations	Jan 16, 2020	ClassificationDocument Text Classification	CodeCode Available	1
Harmonic-NAS: Hardware-Aware Multimodal Neural Architecture Search on Resource-constrained Devices	Sep 12, 2023	General ClassificationMultimodal Text and Image Classification	CodeCode Available	1
Image and Text fusion for UPMC Food-101 \ BERT and CNNs	Dec 17, 2020	ClassificationDocument Text Classification	CodeCode Available	1
Analysis of Social Media Data using Multimodal Deep Learning for Disaster Response	Apr 14, 2020	Deep LearningDisaster Response	CodeCode Available	1
CMA-CLIP: Cross-Modality Attention CLIP for Image-Text Classification	Dec 7, 2021	AttributeImage-text Classification	—Unverified	0
Multimodal price prediction	Jul 9, 2020	Multimodal Text and Image ClassificationPrediction	—Unverified	0

Show:10 25 50

All datasets Food-101 CD18 CUB-200-2011

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Early Fusion (Bert + InceptionV3)	Accuracy (%)	92.5	—	Unverified
2	Late Fusion (Bert + InceptionV3)	Accuracy (%)	84.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Convolutional image feature extraction and dense concatenating	Accuracy	88	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Two Branch Network (Text - Bert + Image - Nts-Net)	Accuracy	96.81	—	Unverified