Sign In

Diagnosing Hallucination Risk in AI Surgical Decision-Support: A Sequential Framework for Sequential Validation

Created by
  • Haebom
Category
Empty

저자

Dong Chen, Yanzhe Wei, Zonglin He, Guan-Ming Kuang, Canhua Ye, Meiru An, Huili Peng, Yong Hu, Huiren Tao, Kenneth MC Cheung

개요

본 연구는 척추 수술 분야에서 대규모 언어 모델(LLM)의 임상 의사 결정 지원 가능성을 탐구하며, 환자 안전을 위협할 수 있는 할루시네이션(사실과 다르거나 맥락과 맞지 않는 출력) 위험을 정량화하는 데 초점을 맞춘다. 6개의 선도적인 LLM을 30개의 전문가 검증 척추 사례에 대해 평가했으며, DeepSeek-R1이 가장 뛰어난 성능을 보였다. 연구 결과는 추론 능력이 향상된 모델 변형이 표준 모델보다 항상 우수한 성능을 보이지 않았고, 복잡성 증가에 따라 권장 사항의 품질이 저하되는 등 모델별 취약점을 드러냈다.

시사점, 한계점

DeepSeek-R1이 척추 수술 관련 LLM 평가에서 가장 뛰어난 성능을 보였음. 특히 외상 및 감염과 같은 고위험 영역에서 강점을 보임.
Claude-3.7-Sonnet의 확장된 사고 모드가 표준 버전보다 성능이 낮아, 확장된 사고 과정만으로는 임상적 신뢰성을 확보하기 어려움을 시사함.
모델의 복잡성이 증가함에 따라 권장 사항 품질이 저하되는 등, 모델별 취약점이 발견됨.
의사 결정 지원에 LLM을 적용하기 전에, 해석 가능성 메커니즘(예: 추론 과정 시각화)을 통합하고 안전 중심의 검증 프레임워크를 구축해야 함.
제한점으로는, 평가에 사용된 사례의 수가 제한적일 수 있으며, 특정 모델의 성능 저하 원인에 대한 추가적인 분석이 필요할 수 있음.
👍