기존 Vision-Language Pre-training (VLP) 접근 방식은 특징 추출과 교차 모달 이해에 중점을 두고 시각적 콘텐츠 생성이나 변환에는 제한적으로 접근하여 다중 모달 학습의 효과를 떨어뜨리는 한계가 있었습니다. 본 논문에서는 의료 데이터에 맞춘 통합 VLP 프레임워크인 MedUnifier를 제안합니다. MedUnifier는 텍스트 기반 이미지 생성 기능을 이미지-텍스트 대조 정렬, 이미지-텍스트 매칭, 이미지 기반 텍스트 생성 등의 다중 모달 학습 전략과 원활하게 통합합니다. 기존의 연속적인 시각적 표현에 의존하는 방법과 달리, 시각적 벡터 양자화를 사용하여 교차 모달 이해를 위한 더욱 응집력 있는 학습 전략을 용이하게 하고 이산적 표현을 효과적으로 활용하여 다중 모달 생성 품질을 향상시킵니다. 단일 모달 작업(지도 학습 미세 조정), 교차 모달 작업(이미지-텍스트 검색 및 제로샷 이미지 분류), 다중 모달 작업(의료 보고서 생성, 이미지 합성)을 포함한 기존 벤치마크에서 최첨단 성능을 달성하여 프레임워크의 효과를 입증했습니다. MedUnifier는 의료 분야의 다양한 언어 및 비전 작업에 대한 매우 적응력 있는 도구를 제공하여 의료 응용 프로그램을 위한 일반적인 AI 모델 개발을 향한 발전을 나타냅니다.