본 논문은 e-commerce 응용 분야에서 Multimodal Foundation Models (MFMs)을 활용하기 위한 연구를 소개한다. 연구의 주요 목표는 (1) 대규모 고품질 멀티모달 벤치마크 데이터셋의 부족, (2) 효과적인 멀티모달 정보 통합 방법의 부재라는 두 가지 주요 문제점을 해결하는 것이다. 이를 위해, e-commerce를 위한 최초의 대규모 고품질 멀티모달 instruction 데이터셋인 MMECInstruct를 소개하고, 멀티모달 정보 통합을 위한 간단하고 가벼우면서도 효과적인 프레임워크인 CASLIE를 개발했다. MMECInstruct를 활용하여 CASLIE 내에서 일련의 e-commerce MFM을 fine-tuning하여 CASLIE 모델을 생성하였으며, 포괄적인 평가를 통해 CASLIE 모델이 in-domain 평가에서 5가지 범주의 고급 baseline 모델보다 월등히 우수함을 입증했다. 또한, CASLIE 모델은 out-of-domain 환경에서도 강력한 일반화 성능을 보였다. MMECInstruct 및 CASLIE 모델은 공개적으로 접근 가능하다.