Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs

Created by
  • Haebom

저자

Yumin Choi, Dongki Kim, Jinheon Baek, Sung Ju Hwang

개요

대규모 언어 모델(LLM)의 멀티모달 확장(MLLM)은 텍스트 외 이미지, 비디오 등 다양한 모달리티를 처리할 수 있게 되었지만, 텍스트에만 국한된 프롬프트 최적화 기법은 MLLM의 잠재력을 완전히 활용하는 데 한계가 있다. 본 논문은 텍스트 및 비텍스트 프롬프트 쌍으로 정의되는 멀티모달 공간으로 프롬프트 최적화 문제를 확장하는 멀티모달 프롬프트 최적화(Multimodal Prompt Optimization, MPO)를 제안한다. MPO는 정렬 유지를 통해 멀티모달 프롬프트를 공동 최적화하고, 베이지안 기반 선택 전략을 통해 후보 프롬프트 선택 과정을 안내한다. 이미지, 비디오, 분자 등 다양한 모달리티에 대한 광범위한 실험을 통해 MPO가 기존의 텍스트 전용 최적화 기법보다 우수함을 입증하며, MLLM의 잠재력 실현에 필수적인 단계임을 보여준다.

시사점, 한계점

시사점:
MLLM의 성능 향상을 위해 텍스트 외 다양한 모달리티를 포함하는 멀티모달 프롬프트 최적화의 필요성을 제시.
멀티모달 프롬프트 최적화를 위한 MPO 프레임워크를 제안, 기존 텍스트 기반 방법론의 한계를 극복.
다양한 모달리티에 대한 실험을 통해 MPO의 효과를 입증, MLLM 연구에 기여.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음. (하지만, 논문에 명시된 내용은 아니지만, MPO의 복잡성, 계산 비용, 특정 데이터셋에 대한 의존성 등은 잠재적 한계일 수 있음.)
👍