신경모세포종(NB)의 정확한 예후 및 치료를 위해서는 조직병리학적 변이성을 고려한 정밀한 아형 분류가 필수적입니다. 기존 진단법은 시간이 오래 걸리고 일관성이 부족한 주관적인 평가에 의존합니다. 본 연구는 병리 이미지와 생성된 텍스트 설명을 통합하여 분류 정확도와 해석력을 향상시키는 다중 모달 학습(MML) 모델인 MMLNB를 제시합니다. 두 단계 과정을 거치는데, 첫째, 병리학적 지식을 활용한 텍스트 생성을 위해 시각-언어 모델(VLM)을 미세 조정하고, 둘째, 미세 조정된 VLM을 사용하여 시각적 및 텍스트적 특징을 독립적으로 추출하는 이중 분기 아키텍처를 통해 텍스트 설명을 생성합니다. 이러한 특징들은 안정적인 훈련을 위해 Progressive Robust Multi-Modal Fusion (PRMF) 블록을 통해 융합됩니다. 실험 결과, MMLNB 모델이 단일 모달 모델보다 더 정확하며, 추가 연구를 통해 다중 모달 융합, 미세 조정 및 PRMF 메커니즘의 중요성을 보여줍니다. 이 연구는 신뢰성과 해석력을 향상시키는 디지털 병리학을 위한 확장 가능한 AI 기반 프레임워크를 제시합니다. 소스 코드는 https://github.com/HovChen/MMLNB 에서 이용 가능합니다.