Sign In

MASTER: Multimodal Segmentation with Text Prompts

Created by
  • Haebom
Category
Empty

저자

Fuyang Liu, Shun Lu, Jilin Mei, Yu Hu

개요

RGB-Thermal 융합은 다양한 날씨 및 조명 조건에서의 어려운 시나리오에 대한 잠재적인 해결책입니다. 하지만 많은 연구가 서로 다른 모달리티를 융합하기 위한 복잡한 모듈 설계에 초점을 맞추고 있습니다. 본 논문에서는 대규모 언어 모델(LLM)의 장점을 활용하여 구조적으로 단순하고 높은 적응력을 가진 다중 모달 융합 모델 아키텍처를 설계하고자 합니다. RGB-Thermal 다중 모달 데이터의 융합에 LLM을 통합하고 복잡한 질의 텍스트가 융합 프로세스에 참여할 수 있도록 하는 MultimodAl Segmentation with TExt PRompts (MASTER) 아키텍처를 제안합니다. MASTER는 이중 경로 구조를 사용하여 이미지의 서로 다른 모달리티에서 정보를 추출하고, LLM을 다중 모달 융합의 핵심 모듈로 사용하여 RGB, 열화상 및 텍스트 정보로부터 학습 가능한 코드북 토큰을 생성합니다. 경량 이미지 디코더를 사용하여 의미 분할 결과를 얻습니다. 제안된 MASTER는 다양한 자동 주행 시나리오에서 벤치마크 테스트에서 매우 우수한 성능을 보이며 유망한 결과를 제공합니다.

시사점, 한계점

시사점:
LLM을 활용한 단순하고 적응력 높은 RGB-Thermal 융합 모델 아키텍처 제시
텍스트 정보를 활용한 다중 모달 융합의 효율성 증명
자동 주행 시나리오에서 우수한 성능 검증
한계점:
제시된 모델의 일반화 성능에 대한 추가적인 연구 필요
LLM의 계산 비용 및 효율성 개선 필요
다양한 환경 및 조건에서의 로버스트니스에 대한 추가적인 평가 필요
👍