Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Diagnosing Hallucination Risk in AI Surgical Decision-Support: A Sequential Framework for Sequential Validation

Created by
  • Haebom

저자

Dong Chen, Yanzhe Wei, Zonglin He, Guan-Ming Kuang, Canhua Ye, Meiru An, Huili Peng, Yong Hu, Huiren Tao, Kenneth MC Cheung

개요

대규모 언어 모델(LLM)이 척추 수술의 임상 의사 결정 지원에 혁신적인 잠재력을 제공하지만, 환자 안전을 위협할 수 있는 사실과 일치하지 않거나 맥락에 맞지 않는 출력인 환각을 통해 상당한 위험을 초래한다. 본 연구에서는 진단 정확성, 권장 사항 품질, 추론 견고성, 출력 일관성 및 지식 정렬을 평가하여 환각 위험을 정량화하는 임상의 중심 프레임워크를 제시한다. 30개의 전문가 검증 척추 사례에 걸쳐 6개의 주요 LLM을 평가했으며, DeepSeek-R1이 우수한 전체 성능(총점: 86.03 $\pm$ 2.08)을 보였다. 특히 외상 및 감염과 같은 위험도가 높은 분야에서 두드러졌다.

시사점, 한계점

DeepSeek-R1이 가장 우수한 성능을 보였다.
추론이 강화된 모델 변형이 표준 모델보다 일관되게 우수한 성능을 보이지 않았다. Claude-3.7-Sonnet의 확장된 사고 모드는 표준 버전보다 낮은 성능을 보였다.
복잡성이 증가함에 따라 권장 사항 품질이 저하되었다.
해석 가능성 메커니즘(예: 추론 체인 시각화)을 임상 워크플로우에 통합해야 한다.
안전 인식 검증 프레임워크를 수립하여 수술 LLM 배포에 활용해야 한다.
👍