Optimizing Large Language Models for Detecting Symptoms of Comorbid Depression or Anxiety in Chronic Diseases: Insights from Patient Messages
Created by
Haebom
Category
Empty
저자
Jiyeong Kim, Stephen P. Ma, Michael L. Chen, Isaac R. Galatzer-Levy, John Torous, Peter J. van Roessel, Christopher Sharp, Michael A. Pfeffer, Carolyn I. Rodriguez, Eleni Linos, Jonathan H. Chen
개요
당뇨병 환자는 우울증이나 불안증이 동반될 위험이 높아 관리가 복잡해진다. 본 연구는 안전한 환자 메시지에서 이러한 증상을 감지하는 데 있어 대규모 언어 모델(LLM)의 성능을 평가했다. 엔지니어링된 프롬프트, 시스템적 페르소나, 온도 조정, 제로샷 및 퓨샷 학습 등 여러 접근 방식을 적용하여 최고 성능 모델을 식별하고 성능을 향상시켰다. 5개의 LLM 중 3개가 우수한 성능(F-1 및 정확도 90% 이상)을 보였으며, Llama 3.1 405B는 제로샷 접근 방식을 사용하여 F-1 및 정확도 모두 93%를 달성했다. LLM은 이진 분류 및 환자 건강 설문지-4와 같은 복잡한 지표 처리에 유망성을 보였지만, 어려운 경우의 불일치는 실제 평가가 필요함을 시사한다. 이러한 결과는 LLM이 시기 적절한 선별 검사 및 의뢰를 지원하여 만성 질환 환자의 정신 건강 관리를 개선할 수 있는 실제 트리아주 시스템에 대한 귀중한 경험적 지식을 제공할 수 있는 잠재력을 강조한다.
시사점, 한계점
•
시사점:
◦
대규모 언어 모델(LLM)이 당뇨병 환자의 우울증 및 불안 증상 감지를 위한 효과적인 도구로 사용될 수 있음을 보여줌.
◦
특히 Llama 3.1 405B와 같은 일부 LLM은 제로샷 학습으로도 높은 정확도를 달성함.
◦
LLM을 활용한 시기 적절한 선별 검사 및 의뢰 시스템 구축을 통해 만성 질환 환자의 정신 건강 관리 개선 가능성 제시.
◦
실제 트리아주 시스템 개발을 위한 귀중한 경험적 데이터 제공.
•
한계점:
◦
어려운 경우의 불일치는 실제 환경에서의 추가 평가가 필요함을 시사.
◦
모든 LLM이 동일한 성능을 보이지 않아 모델 선택 및 최적화 전략에 대한 추가 연구 필요.