본 논문은 대규모 다중 모달 모델(LMMs)의 성능 저하 문제를 해결하기 위해 Encode-Prefill-Decode (EPD) 분산 프레임워크를 제안합니다. LMMs는 이미지, 오디오, 비디오 등 다양한 입력을 처리하지만, 다중 모달 인코딩 단계로 인해 계산 및 메모리 오버헤드가 증가하여 응답 시간과 같은 주요 서비스 수준 목표(SLOs)를 저하시킵니다. EPD 분산 프레임워크는 인코딩, 프리필, 디코딩 단계를 전용 리소스로 분리하여 이러한 문제를 해결합니다. 멀티미디어 토큰 캐싱, 인코딩 부하 병렬화, 최적 자원 할당 모듈, 역할 전환 메커니즘 등을 통해 메모리 효율성, 배치 크기, 요청당 이미지 수, KV 캐시 크기 등을 크게 향상시키고, SLO 달성률과 응답 시간을 개선합니다.