본 연구는 자원이 제한된 환경에서 보편적 의료 접근성을 높이기 위한 대규모 언어 모델(LLM)의 진단 신뢰성을 평가합니다. 52개의 환자 사례와 그 변형된 사례(인구통계학적 변화, 증상 재구성, 검사 수정)를 사용하여 Gemini와 ChatGPT를 포함한 주요 LLM의 일관성, 조작 저항성, 문맥 통합 능력을 평가했습니다. LLM은 동일한 데이터에 대해서는 완벽한 진단 일관성을 보였지만, 무관한 정보를 삽입하는 등의 조작에 취약한 것으로 나타났습니다. Gemini는 40%, ChatGPT는 30%의 진단 변경률을 보였으며, 문맥 통합 능력 또한 제한적이었습니다. 연구 결과, LLM은 의료 분야에 적용하기 위해서는 조작 저항성과 문맥 이해 능력 향상이 필요하며, 감독 없는 광범위한 임상 적용은 시기상조이고 위험하다는 결론을 제시합니다.