StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation

2024-08-02Code Available2· sign in to hype

Code Available — Be the first to reproduce this paper.

Code

github.com/libingyu01/stitchfusion-stitchfusion-weaving-any-visual-modalities-to-enhance-multimodal-semantic-segmentation
pytorch★ 53

Abstract

Multimodal semantic segmentation shows significant potential for enhancing segmentation accuracy in complex scenes. However, current methods often incorporate specialized feature fusion modules tailored to specific modalities, thereby restricting input flexibility and increasing the number of training parameters. To address these challenges, we propose StitchFusion, a straightforward yet effective modal fusion framework that integrates large-scale pre-trained models directly as encoders and feature fusers. This approach facilitates comprehensive multi-modal and multi-scale feature fusion, accommodating any visual modal inputs. Specifically, Our framework achieves modal integration during encoding by sharing multi-modal visual information. To enhance information exchange across modalities, we introduce a multi-directional adapter module (MultiAdapter) to enable cross-modal information transfer during encoding. By leveraging MultiAdapter to propagate multi-scale information across pre-trained encoders during the encoding process, StitchFusion achieves multi-modal visual information integration during encoding. Extensive comparative experiments demonstrate that our model achieves state-of-the-art performance on four multi-modal segmentation datasets with minimal additional parameters. Furthermore, the experimental integration of MultiAdapter with existing Feature Fusion Modules (FFMs) highlights their complementary nature. Our code is available at StitchFusion_repo.

Tasks

Segmentation Semantic Segmentation Thermal Image Segmentation

Benchmark Results

Dataset	Model	Metric	Claimed	Verified	Status
DELIVER	StitchFusion (RGB-D-LiDAR)	mIoU	66.65	—	Unverified
DELIVER	StitchFusion(RGB-D-E-LiDAR)	mIoU	68.18	—	Unverified
DELIVER	StitchFusion (RGB-LiDAR)	mIoU	58.03	—	Unverified
DELIVER	StitchFusion (RGB-Depth)	mIoU	65.75	—	Unverified
DELIVER	StitchFusion (RGB-D-Event)	mIoU	66.03	—	Unverified
DELIVER	StitchFusion (RGB-Event)	mIoU	57.44	—	Unverified
FMB Dataset	StitchFusion (RGB-Infrared)	mIoU	63.3	—	Unverified
FMB Dataset	StitchFusion+FFMs (RGB-Infrared)	mIoU	64.32	—	Unverified
MCubeS	StitchFusion (RGB-A-D-N)	mIoU	53.92	—	Unverified
MCubeS	StitchFusion (RGB-A)	mIoU	52.68	—	Unverified
MCubeS	StitchFusion (RGB-D)	mIoU	52.72	—	Unverified
MCubeS	StitchFusion (RGB-N)	mIoU	53.21	—	Unverified
MCubeS	StitchFusion (RGB-A-D)	mIoU	53.26	—	Unverified

StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation

Code

Abstract

Tasks

Benchmark Results

Reproductions