본 연구는 인공지능(AI)이 진단을 넘어 치료 계획 수립에 활용됨에 따라, AI 생성 치료 계획 평가의 어려움을 다룹니다. 피부과 전문의 10명, 일반적인 AI 모델(GPT-4o), 추론 AI 모델(o3)이 5가지 복잡한 피부과 사례에 대한 치료 계획을 수립하였고, 다른 10명의 피부과 전문의와 상위 AI 모델(Gemini 2.5 Pro)이 동일한 평가 기준으로 계획을 평가했습니다. 평가 결과, 인간 전문가는 동료의 계획을 AI 계획보다 높게 평가했으나, 상위 AI는 AI 계획을 인간 전문가의 계획보다 훨씬 높게 평가하는 "평가자 효과"가 나타났습니다. 이는 경험 기반 임상 지식과 데이터 기반 알고리즘 논리 간의 큰 차이를 보여줍니다.