본 연구는 유방암 및 자궁경부암에 대한 효과적인 의사소통의 어려움과 이로 인한 진단 및 치료 지연 문제를 해결하기 위해 대규모 언어 모델(LLM)의 활용 가능성 및 한계를 평가했습니다. 5개의 범용 LLM과 3개의 의료 LLM을 대상으로 언어적 품질, 안전성 및 신뢰성, 의사소통 접근성 및 효과성을 혼합 방법론적 평가틀을 이용하여 평가했습니다. 정량적 지표, 정성적 전문가 평가, Welch's ANOVA, Games-Howell, Hedges' g를 사용한 통계 분석을 통해 범용 LLM은 더 높은 언어적 품질과 효과성을 보였으나, 의료 LLM은 더 높은 접근성을 보였습니다. 반면 의료 LLM은 잠재적 위해, 독성 및 편향이 더 높아 안전성 및 신뢰성 측면에서 성능이 떨어졌습니다. 결과적으로 건강 정보 전달에서 도메인 특화 지식과 안전성 간의 이중성이 드러났으며, 모델 설계 시 위해 및 편향 완화, 안전성 및 효과성 개선을 위한 노력이 필요함을 시사합니다.