Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Cognitive bias in LLM reasoning compromises interpretation of clinical oncology notes

Created by
  • Haebom
Category
Empty

저자

Matthew W. Kenaston (Mayo Clinic College of Medicine and Science, Phoenix, AZ), Umair Ayub (Mayo Clinic College of Medicine and Science, Phoenix, AZ), Mihir Parmar (School of Computing and AI, Arizona State University, Tempe, AZ), Muhammad Umair Anjum (Mayo Clinic College of Medicine and Science, Phoenix, AZ), Syed Arsalan Ahmed Naqvi (Mayo Clinic College of Medicine and Science, Phoenix, AZ), Priya Kumar (Mayo Clinic College of Medicine and Science, Phoenix, AZ), Samarth Rawal (Mayo Clinic College of Medicine and Science, Phoenix, AZ), Aadel A. Chaudhuri (Department of Radiation Oncology, Mayo Clinic, Rochester, MN), Yousef Zakharia (Mayo Clinic Comprehensive Cancer Center, Phoenix, AZ), Elizabeth I. Heath (Department of Oncology, Mayo Clinic, Rochester, MN), Tanios S. Bekaii-Saab (Mayo Clinic Comprehensive Cancer Center, Phoenix, AZ), Cui Tao (Department of Artificial Intelligence and Informatics, Mayo Clinic, Rochester, MN), Eliezer M. Van Allen (Dana-Farber Cancer Institute, Harvard Medical School, Boston, MA), Ben Zhou (School of Computing and AI, Arizona State University, Tempe, AZ), YooJung Choi (School of Computing and AI, Arizona State University, Tempe, AZ), Chitta Baral (School of Computing and AI, Arizona State University, Tempe, AZ), Irbaz Bin Riaz (Mayo Clinic College of Medicine and Science, Phoenix, AZ, Mayo Clinic Comprehensive Cancer Center, Phoenix, AZ, Department of Artificial Intelligence and Informatics, Mayo Clinic, Rochester, MN)

개요

본 연구는 임상 벤치마크에서 높은 성능을 보이는 대규모 언어 모델(LLM)이 잘못된 추론을 통해 정확한 결론에 도달할 수 있다는 문제점을 지적하며, 이는 종양학 의사 결정 지원에서 안전 문제로 이어질 수 있음을 강조한다. 이를 위해, 두 개의 코호트 후향적 연구를 통해 GPT-4의 Chain-of-Thought 응답에서 나타나는 추론 오류의 계층적 분류 체계를 개발하고 임상적 관련성을 검증했다. 유방암 및 췌장암 데이터를 활용하여 600개의 추론 과정을 분석, 계산 오류를 인지 편향 프레임워크에 매핑하는 3단계 분류 체계를 정의하고, 전이성 질환을 포함한 전립선암 상담 기록 822개의 응답을 통해 이를 검증했다. 연구 결과, 추론 오류는 해석의 23%에서 발생했으며, 확인 편향과 닻 내림 편향이 가장 흔하게 나타났다. 이러한 오류는 지침과 일치하지 않고 잠재적으로 해로운 권고로 이어졌으며, 특히 진행성 질환 관리에서 두드러졌다. 또한, 최첨단 언어 모델을 사용한 자동 평가자는 오류의 존재는 감지했지만, 하위 유형을 신뢰성 있게 분류하지 못했다.

시사점, 한계점

시사점:
LLM은 유창하지만 임상적으로 안전하지 않은 권고를 할 수 있다.
추론 오류는 정확도 기반 평가로 포착되지 않으며, 안전 문제로 이어진다.
개발된 분류 체계는 임상 적용 전 추론 충실도를 평가하고 개선하기 위한 일반화 가능한 프레임워크를 제공한다.
특히 진행성 질환 관리에서 추론 오류가 지침 불일치 및 잠재적 유해 권고로 이어진다.
한계점:
자동 평가자는 오류 존재는 감지했지만, 오류 하위 유형을 신뢰성 있게 분류하지 못함.
연구가 특정 암 유형 및 데이터셋에 국한되어 일반화에 한계가 있을 수 있음.
LLM의 추론 오류를 완화하기 위한 구체적인 개선 방안 제시 부족.
👍