본 논문은 ChatGPT, Alexa+와 같은 현대 대화형 에이전트의 복잡한 정책 문제를 해결하기 위해 멀티모달 정책 내재화(Multimodal Policy Internalization, MPI)라는 새로운 과제를 제안합니다. 기존 정책은 복잡하고 계산 비용이 많이 들며, 멀티모달 에이전트의 경우 정책 연구가 부족하다는 문제점을 지적합니다. MPI는 추론 집약적인 멀티모달 정책을 모델 파라미터로 내재화하여 추론 시 정책을 포함하지 않고도 강력한 정책 준수를 가능하게 합니다. 이를 위해 합성 및 실제 의사 결정 및 도구 사용 작업에 걸쳐 두 개의 데이터 세트를 구축하고, TriMPI라는 3단계 훈련 프레임워크를 제안합니다. TriMPI는 지속적인 사전 훈련, 지도 학습, 그리고 정책 인식 응답을 활용하는 정책 롤아웃(PolicyRollout) 강화 학습 확장을 통해 성능을 향상시킵니다.