Sign In

Medical Hallucinations in Foundation Models and Their Impact on Healthcare

Created by
  • Haebom
Category
Empty

저자

Yubin Kim, Hyewon Jeong, Shan Chen, Shuyue Stella Li, Chanwoo Park, Mingyu Lu, Kumail Alhamoud, Jimin Mun, Cristina Grau, Minseok Jung, Rodrigo Gameiro, Lizhou Fan, Eugene Park, Tristan Lin, Joonsik Yoon, Wonjin Yoon, Maarten Sap, Yulia Tsvetkov, Paul Liang, Xuhai Xu, Xin Liu, Chunjong Park, Hyeonhoon Lee, Hae Won Park, Daniel McDuff, Samir Tulebaev, Cynthia Breazeal

개요

재단 모델의 환각은 토큰 유사성 최적화를 우선시하는 자기 회귀 훈련 목표로 인해 발생하며, 이는 과신과 부정확한 불확실성 보정을 초래한다. 본 논문은 의료 환각을 임상적 결정에 영향을 미칠 수 있는 방식으로 사실과 다르거나, 논리적으로 일치하지 않거나, 권위 있는 임상적 증거에 의해 뒷받침되지 않는 모델 생성 출력으로 정의한다. 7개의 일반 목적 모델과 4개의 의료 전문 모델 등 11개의 재단 모델을 의료 추론 및 생의학 정보 검색을 포함한 7개의 의료 환각 과제에서 평가했다. 일반 목적 모델은 의료 전문 모델보다 유의미하게 높은 비율의 환각 없는 응답을 달성했다. 사고 사슬 프롬프팅으로 보강했을 때 Gemini-2.5 Pro와 같은 상위 모델은 97% 이상의 정확도를 달성했지만, MedGemma와 같은 의료 전문 모델은 의료 코퍼스에 대한 명시적인 훈련에도 불구하고 28.6-61.9% 범위에 있었다. 사고 사슬 추론은 테스트된 비교의 86.4%에서 환각을 유의미하게 감소시켰다. 의사 감사를 통해 잔여 환각의 64-72%가 지식 격차가 아닌 인과적 또는 시간적 추론 실패에서 비롯되었음이 확인되었다. 임상의에 대한 글로벌 설문 조사를 통해 실제 세계에서의 영향이 검증되었으며, 91.8%가 의료 환각을 경험했으며, 84.7%는 환자에게 해를 끼칠 수 있다고 생각했다. 도메인 훈련에도 불구하고 의료 전문 모델의 저조한 성능은 안전이 좁은 최적화가 아닌 대규모 사전 훈련 중에 개발된 정교한 추론 능력과 광범위한 지식 통합에서 비롯됨을 나타낸다.

시사점, 한계점

시사점:
일반 목적 모델이 의료 전문 모델보다 환각 없는 응답 비율이 높았다.
사고 사슬(Chain-of-thought) 추론은 환각을 줄이는 데 효과적이었다.
잔여 환각은 지식 격차보다는 추론 실패와 관련이 있었다.
의료 환각은 임상 환경에서 환자에게 해를 끼칠 수 있다.
안전성은 좁은 최적화보다는 광범위한 지식과 정교한 추론 능력에서 비롯된다.
한계점:
구체적인 한계점은 논문 요약에서 명시적으로 언급되지 않았음. (논문에 직접 명시된 내용은 아님)
👍