Diagnosing Hallucination Risk in AI Surgical Decision-Support: A Sequential Framework for Sequential Validation
Created by
Haebom
Category
Empty
저자
Dong Chen, Yanzhe Wei, Zonglin He, Guan-Ming Kuang, Canhua Ye, Meiru An, Huili Peng, Yong Hu, Huiren Tao, Kenneth MC Cheung
개요
본 연구는 척추 수술 분야에서 대규모 언어 모델(LLM)의 임상 의사 결정 지원 가능성을 탐구하며, 환자 안전을 위협할 수 있는 할루시네이션(사실과 다르거나 맥락과 맞지 않는 출력) 위험을 정량화하는 데 초점을 맞춘다. 6개의 선도적인 LLM을 30개의 전문가 검증 척추 사례에 대해 평가했으며, DeepSeek-R1이 가장 뛰어난 성능을 보였다. 연구 결과는 추론 능력이 향상된 모델 변형이 표준 모델보다 항상 우수한 성능을 보이지 않았고, 복잡성 증가에 따라 권장 사항의 품질이 저하되는 등 모델별 취약점을 드러냈다.
시사점, 한계점
•
DeepSeek-R1이 척추 수술 관련 LLM 평가에서 가장 뛰어난 성능을 보였음. 특히 외상 및 감염과 같은 고위험 영역에서 강점을 보임.
•
Claude-3.7-Sonnet의 확장된 사고 모드가 표준 버전보다 성능이 낮아, 확장된 사고 과정만으로는 임상적 신뢰성을 확보하기 어려움을 시사함.
•
모델의 복잡성이 증가함에 따라 권장 사항 품질이 저하되는 등, 모델별 취약점이 발견됨.
•
의사 결정 지원에 LLM을 적용하기 전에, 해석 가능성 메커니즘(예: 추론 과정 시각화)을 통합하고 안전 중심의 검증 프레임워크를 구축해야 함.
•
제한점으로는, 평가에 사용된 사례의 수가 제한적일 수 있으며, 특정 모델의 성능 저하 원인에 대한 추가적인 분석이 필요할 수 있음.