본 논문은 컴퓨터 병리학 분야에서 디지털 기술을 활용하여 조직병리학 이미지 분석을 향상시키는 새로운 방법을 제시합니다. Vision Transformer (ViT)와 GPT-2를 결합한 다중 모달 모델을 사용하여 이미지 캡션을 생성하는데, 이 모델은 임상 및 학술 자료에서 얻은 상세한 이미지 캡션을 포함하는 특수 ARCH 데이터셋을 사용하여 미세 조정됩니다. 이를 통해 조직 형태, 염색 변이, 병리학적 상태 등 병리학 이미지의 복잡성을 포착하여 정확하고 문맥에 맞는 캡션을 생성합니다. 생성된 캡션은 의료 전문가의 인지 능력을 향상시켜 질병 분류, 분할 및 탐지를 보다 효율적으로 수행할 수 있도록 지원하며, 미세한 병리학적 특징을 감지하여 진단 정확도를 향상시킵니다. 이는 의료 영상 분석에서 인간의 인지 능력을 향상시키고, 보다 개인화되고 정확한 의료 결과를 제공하는 디지털 기술의 잠재력을 보여줍니다.