대규모 언어 모델(LLM)을 활용한 계산 병리학 연구에서, 기가 픽셀 단위의 전체 슬라이드 이미지(WSI)의 높은 계산 비용 문제를 해결하기 위해 멀티 인스턴스 학습(MIL)을 제안합니다. 특히, 과제 특화 병리 엔티티 프로토타입 구성을 통해 일반화 가능한 특징을 학습하고 모델 해석 능력을 향상시키는 데 초점을 맞춥니다. 또한, 양방향 상호 작용을 촉진하는 새로운 접근 방식인 Multimodal Prototype-based Multi-Instance Learning을 제시합니다. 이 방법은 고정된 LLM을 사용하여 과제별 병리 엔티티 설명을 텍스트 프로토타입으로 학습시키고, 비전 분기에서는 인스턴스 레벨 프로토타입을 학습합니다. 융합 단계에서는 Stereoscopic Optimal Transport (SOT) 알고리즘을 사용하여 더 넓은 의미적 정렬을 용이하게 합니다. 세 개의 암 데이터셋에 대한 소수 샷 분류 및 설명 가능성 실험을 통해 제안된 방법의 우수한 일반화 성능을 입증합니다.