본 논문은 대규모 언어 모델(LLM)이 의료 질문 응답 및 역할극 시뮬레이션에서 널리 사용되는 프롬프트 기반 역할 연기(PBRP) 방식의 효과를 평가한다. RP-Neuron-Activated Evaluation Framework(RPNA)를 사용하여 역할 프롬프트가 모델의 추론 능력에 실질적인 영향을 미치는지, 아니면 단순히 언어적 스타일만 변경하는지 분석한다. 그 결과, 역할 프롬프트가 LLM의 의료 추론 능력을 유의미하게 향상시키지 못하며, 언어적 특징에 주로 영향을 미치는 것으로 나타났다. 즉, 다양한 임상 역할 간에 뚜렷한 추론 경로 또는 인지적 차별화는 관찰되지 않았다.
시사점, 한계점
•
시사점:
◦
현재의 PBRP 방식은 실제 의료 환경의 인지적 복잡성을 재현하지 못한다.
◦
LLM 기반 의료 AI에서 실제 인지 과정을 시뮬레이션하는 모델 개발의 필요성을 강조한다.
•
한계점:
◦
역할 프롬프트가 표면적인 언어적 특징만 변경하고, 핵심 의사 결정 메커니즘은 역할에 따라 일관성을 유지한다.
◦
PBRP 방식의 한계를 지적하며, 언어적 모방이 아닌 진정한 인지 과정 시뮬레이션의 중요성을 강조한다.