RGB-Thermal 융합은 다양한 날씨 및 조명 조건에서의 어려운 시나리오에 대한 잠재적인 해결책입니다. 하지만 많은 연구가 서로 다른 모달리티를 융합하기 위한 복잡한 모듈 설계에 초점을 맞추고 있습니다. 본 논문에서는 대규모 언어 모델(LLM)의 장점을 활용하여 구조적으로 단순하고 높은 적응력을 가진 다중 모달 융합 모델 아키텍처를 설계하고자 합니다. RGB-Thermal 다중 모달 데이터의 융합에 LLM을 통합하고 복잡한 질의 텍스트가 융합 프로세스에 참여할 수 있도록 하는 MultimodAl Segmentation with TExt PRompts (MASTER) 아키텍처를 제안합니다. MASTER는 이중 경로 구조를 사용하여 이미지의 서로 다른 모달리티에서 정보를 추출하고, LLM을 다중 모달 융합의 핵심 모듈로 사용하여 RGB, 열화상 및 텍스트 정보로부터 학습 가능한 코드북 토큰을 생성합니다. 경량 이미지 디코더를 사용하여 의미 분할 결과를 얻습니다. 제안된 MASTER는 다양한 자동 주행 시나리오에서 벤치마크 테스트에서 매우 우수한 성능을 보이며 유망한 결과를 제공합니다.