본 논문은 생성형 인공지능과 instruction tuning 기술의 발전으로 일반적인 추론 작업에서 다중 모드 대규모 언어 모델(MLLM)이 눈부신 발전을 이루었지만, 병리학적 영상 추론 작업에는 여전히 한계가 있음을 지적합니다. 기존 MLLM은 도메인 특화 정보 부족으로 인한 환각(hallucination) 및 CoT(Chain-of-Thought) 방식의 추가 추론 단계에서 발생하는 오류로 인해 성능이 저하될 수 있습니다. 이를 해결하기 위해, 본 논문에서는 병리학 전문가 지식을 MLLM의 추론 과정에 통합하고, 답변의 발산을 완화하기 위한 자체 평가를 통합한 새로운 제로샷 CoT 프롬프팅 방법인 PathCoT를 제안합니다. PathCoT는 전문가 지식을 활용하여 MLLM이 병리학 전문가처럼 작동하도록 유도하고, 도메인 특화 지식을 바탕으로 영상을 포괄적으로 분석하여 CoT 추론을 통해 답변을 도출합니다. 또한, MLLM이 직접 생성한 결과와 CoT를 통해 도출된 결과를 모두 평가하는 자체 평가 단계를 포함하여 신뢰할 수 있는 답변을 최종적으로 결정합니다. PathMMU 데이터셋을 이용한 실험 결과는 PathCoT의 효과를 보여줍니다.