본 연구는 사용자의 질문 방식, 임상 정보의 완전성 등 사용자 요인이 의료 분야에서 사용되는 대규모 언어 모델(LLM)의 신뢰성에 미치는 영향을 조사했습니다. 오류 정보 프레이밍, 정보 출처의 권위성, 모델 페르소나, 주요 임상 정보의 생략이 LLM의 진단 정확도와 신뢰성에 어떤 영향을 미치는지 두 가지 실험(오류 정보 주입 실험과 특정 환자 정보 제거 실험)을 통해 평가했습니다. MedQA와 Medbullets 공개 데이터셋을 사용하여 GPT-4o, Claude 3.5 Sonnet, Claude 3.5 Haiku, Gemini 1.5 Pro, Gemini 1.5 Flash (독점 모델) 및 LLaMA 3 8B, LLaMA 3 Med42 8B, DeepSeek R1 8B (오픈소스 모델)을 평가했습니다. 모든 모델이 사용자 주도의 잘못된 정보에 취약했으며, 특히 독점 모델은 단정적이고 권위적인 언어에 영향을 받았습니다. 단정적인 어조가 정확도에 가장 큰 부정적 영향을 미쳤고, 신체 검사 결과 및 실험실 결과 생략이 성능 저하를 가장 크게 야기했습니다. 독점 모델은 기본 정확도가 더 높았지만, 잘못된 정보 하에서는 성능이 급격히 저하되었습니다. 결론적으로, 잘 구성된 프롬프트와 완전한 임상 정보의 중요성을 강조하고 있습니다.