본 논문은 다중 모달 기계 번역(MMT)에서 사전 훈련된 인코더와 디코더의 영향을 체계적으로 연구합니다. 텍스트 입력과 함께 이미지와 같은 보조 모달리티를 활용하여 번역 품질을 향상시키는 MMT에서, 대규모 사전 훈련된 언어 및 비전 모델의 효과와 역할은 아직 충분히 탐구되지 않았습니다. 본 연구는 Multi30K 및 CoMMuTE 데이터셋을 사용하여 영어-독일어 및 영어-프랑스어 번역 작업에서 초기화 방식(scratch부터 학습, 사전 훈련된 모델 사용, 부분적으로 고정된 구성 요소 사용)이 번역 성능에 미치는 영향을 분석합니다. 실험 결과, 사전 훈련은 다중 모달 환경에서 중요하지만 비대칭적인 역할을 한다는 것을 보여줍니다. 사전 훈련된 디코더는 일관되게 더 유창하고 정확한 출력을 생성하는 반면, 사전 훈련된 인코더는 시각-텍스트 정렬의 질에 따라 다양한 효과를 보입니다. 또한, 모달리티 융합과 사전 훈련된 구성 요소 간의 상호 작용에 대한 통찰력을 제공하여 향후 다중 모달 번역 시스템의 아키텍처 설계에 대한 지침을 제시합니다.