대규모 언어 모델(LLM)의 멀티모달 확장(MLLM)은 텍스트 외 이미지, 비디오 등 다양한 모달리티를 처리할 수 있게 되었지만, 텍스트에만 국한된 프롬프트 최적화 기법은 MLLM의 잠재력을 완전히 활용하는 데 한계가 있다. 본 논문은 텍스트 및 비텍스트 프롬프트 쌍으로 정의되는 멀티모달 공간으로 프롬프트 최적화 문제를 확장하는 멀티모달 프롬프트 최적화(Multimodal Prompt Optimization, MPO)를 제안한다. MPO는 정렬 유지를 통해 멀티모달 프롬프트를 공동 최적화하고, 베이지안 기반 선택 전략을 통해 후보 프롬프트 선택 과정을 안내한다. 이미지, 비디오, 분자 등 다양한 모달리티에 대한 광범위한 실험을 통해 MPO가 기존의 텍스트 전용 최적화 기법보다 우수함을 입증하며, MLLM의 잠재력 실현에 필수적인 단계임을 보여준다.