Sign In

A Multi-faceted Analysis of Cognitive Abilities: Evaluating Prompt Methods with Large Language Models on the CONSORT Checklist

Created by
  • Haebom
Category
Empty

저자

Sohyeon Jeon, Hyung-Chul Lee

개요

대규모 언어 모델(LLM)이 의료 분야에서 빠르게 발전하고 있지만, CONSORT 표준에 따라 임상 시험 보고서를 평가하는 능력에 대한 견고하고 설명 가능한 평가는 여전히 어려운 과제입니다. 특히, 의료 자동화에서 LLM 추론의 불확실성 보정 및 메타인지 신뢰성은 잘 이해되지 않고 탐구되지 않았습니다. 이 연구에서는 전문가가 검증한 데이터세트를 사용하여 행동 및 메타인지 분석 접근 방식을 적용하고, 세 가지 프롬프트 전략을 통해 일반 및 도메인 전문 LLM 두 개를 체계적으로 비교합니다. 예상 보정 오류(ECE) 및 모델 간의 신뢰할 수 있는 비교를 가능하게 하는 기준선 정규화 상대 보정 오류(RCE)를 사용하여 인지 적응 및 보정 오류를 분석합니다. 결과는 임상 역할극 조건에서 특히 두 모델 모두에서 현저한 오보정 및 과신을 드러냈으며, 보정 오류는 임상적으로 관련 있는 임계값 이상으로 지속되었습니다. 이러한 발견은 신뢰할 수 있고 설명 가능한 의료 AI를 개발하기 위한 개선된 보정, 투명한 코드 및 전략적 프롬프트 엔지니어링의 필요성을 강조합니다.

시사점, 한계점

시사점:
LLM은 임상 시험 보고서 평가에 miscalibration과 overconfidence 경향을 보임.
임상 역할극 조건에서 보정 오류가 더욱 심화됨.
신뢰할 수 있는 의료 AI 개발을 위해 보정 개선, 투명한 코드, 전략적 프롬프트 엔지니어링이 필요함.
한계점:
연구의 구체적인 한계점은 명시되지 않음. (논문 요약에 언급되지 않음)
👍