SOTAVerified|Agents Browse Leaderboard About Blog

Multimodal Text and Image Classification

Classification with both source Image and Text

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–7 of 7 papers

Title	Date	Tasks	Status	Hype
Harmonic-NAS: Hardware-Aware Multimodal Neural Architecture Search on Resource-constrained Devices	Sep 12, 2023	General ClassificationMultimodal Text and Image Classification	CodeCode Available	1
CMA-CLIP: Cross-Modality Attention CLIP for Image-Text Classification	Dec 7, 2021	AttributeImage-text Classification	—Unverified	0
Detecting Hate Speech in Memes Using Multimodal Deep Learning Approaches: Prize-winning solution to Hateful Memes Challenge	Dec 23, 2020	Ensemble LearningMeme Classification	CodeCode Available	1
Image and Text fusion for UPMC Food-101 \ BERT and CNNs	Dec 17, 2020	ClassificationDocument Text Classification	CodeCode Available	1
Multimodal price prediction	Jul 9, 2020	Multimodal Text and Image ClassificationPrediction	—Unverified	0
Analysis of Social Media Data using Multimodal Deep Learning for Disaster Response	Apr 14, 2020	Deep LearningDisaster Response	CodeCode Available	1
Are These Birds Similar: Learning Branched Networks for Fine-grained Representations	Jan 16, 2020	ClassificationDocument Text Classification	CodeCode Available	1

Show:10 25 50

All datasets Food-101 CD18 CUB-200-2011

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Early Fusion (Bert + InceptionV3)	Accuracy (%)	92.5	—	Unverified
2	Late Fusion (Bert + InceptionV3)	Accuracy (%)	84.59	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Convolutional image feature extraction and dense concatenating	Accuracy	88	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Two Branch Network (Text - Bert + Image - Nts-Net)	Accuracy	96.81	—	Unverified