본 논문은 컴퓨터 병리학 분야에서 인간의 건강, 인지 및 지각 능력을 향상시키는 새로운 접근 방식을 제시합니다. Vision Transformer (ViT)와 GPT-2를 결합한 다중 모달 모델을 활용하여 조직 형태, 염색 변이 및 병리학적 상태와 같은 병리 이미지의 복잡성을 포착하는 정밀한 이미지 캡션을 생성합니다. ARCH 데이터셋을 사용하여 미세 조정된 이 모델은 의료 전문가의 인지 능력을 향상시켜 질병 분류, 분할 및 탐지의 효율성을 높이고, 미세한 병리학적 특징을 식별하여 진단 정확도를 개선합니다. 이를 통해 개인 맞춤형이고 정확한 의료 결과를 향상시킬 수 있는 잠재력을 보여줍니다.