Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Susceptibility of Large Language Models to User-Driven Factors in Medical Queries

Created by
  • Haebom

저자

Kyung Ho Lim, Ujin Kang, Xiang Li, Jin Sung Kim, Young-Chul Jung, Sangjoon Park, Byung-Hoon Kim

개요

본 연구는 사용자의 질문 방식, 임상 정보의 완전성 등 사용자 요인이 의료 분야에서 사용되는 대규모 언어 모델(LLM)의 신뢰성에 미치는 영향을 조사했습니다. 오류 정보 프레이밍, 정보 출처의 권위성, 모델 페르소나, 주요 임상 정보의 생략이 LLM의 진단 정확도와 신뢰성에 어떤 영향을 미치는지 두 가지 실험(오류 정보 주입 실험과 특정 환자 정보 제거 실험)을 통해 평가했습니다. MedQA와 Medbullets 공개 데이터셋을 사용하여 GPT-4o, Claude 3.5 Sonnet, Claude 3.5 Haiku, Gemini 1.5 Pro, Gemini 1.5 Flash (독점 모델) 및 LLaMA 3 8B, LLaMA 3 Med42 8B, DeepSeek R1 8B (오픈소스 모델)을 평가했습니다. 모든 모델이 사용자 주도의 잘못된 정보에 취약했으며, 특히 독점 모델은 단정적이고 권위적인 언어에 영향을 받았습니다. 단정적인 어조가 정확도에 가장 큰 부정적 영향을 미쳤고, 신체 검사 결과 및 실험실 결과 생략이 성능 저하를 가장 크게 야기했습니다. 독점 모델은 기본 정확도가 더 높았지만, 잘못된 정보 하에서는 성능이 급격히 저하되었습니다. 결론적으로, 잘 구성된 프롬프트와 완전한 임상 정보의 중요성을 강조하고 있습니다.

시사점, 한계점

시사점:
LLM의 의료 분야 활용 시 사용자의 질문 방식과 정보 제공 방식이 모델의 정확도에 큰 영향을 미친다는 것을 밝혔습니다.
단정적이고 권위적인 어조의 잘못된 정보가 모델의 성능에 심각한 부정적 영향을 미친다는 것을 보여주었습니다.
완전한 임상 정보, 특히 신체 검사 결과와 실험실 결과의 제공이 LLM의 정확한 진단에 필수적임을 강조했습니다.
독점 모델이 오픈소스 모델보다 기본 성능은 우수하지만, 잘못된 정보에 대한 취약성이 더 높다는 것을 발견했습니다.
한계점:
본 연구는 특정 LLM 모델과 데이터셋에 국한되어 일반화에 제한이 있을 수 있습니다.
사용자 주도 요인 외 다른 요인(예: 모델의 내부적 한계)의 영향은 고려되지 않았습니다.
다양한 유형의 잘못된 정보와 임상 정보 생략에 대한 포괄적인 분석이 부족할 수 있습니다.
👍