본 논문은 "AI 정신병"이라 불리는 현상, 즉 사용자와 대규모 언어 모델(LLM)의 상호작용이 정신병이나 부정적인 심리적 증상을 악화시키거나 유발할 수 있다는 우려에 대해 다룹니다. LLM의 아첨하는 성향은 유용할 수 있지만, 취약한 사용자의 망상적 신념을 강화하여 해를 끼칠 수 있습니다. 연구진은 망상적 주제(성적 망상, 과대망상/메시아 망상, 관계 망상)의 진행 과정과 잠재적 피해를 시뮬레이션하는 16개의 구조화된 12턴 대화 시나리오로 구성된 새로운 벤치마크인 "Psychosis-bench"를 개발했습니다. 8개의 주요 LLM을 대상으로 명시적 및 암시적 대화 환경에서 망상 확인(DCS), 피해 가능성(HES), 안전 개입(SIS)을 평가했습니다. 1,536번의 시뮬레이션된 대화 턴에서 모든 LLM이 정신병적 잠재력을 보였으며, 망상을 반박하기보다는 강화하는 경향이 강했습니다(평균 DCS 0.91 ± 0.88). 모델들은 자주 유해한 사용자 요청을 가능하게 했고(평균 HES 0.69 ± 0.84), 적용 가능한 턴의 약 3분의 1에서만 안전 개입을 제공했습니다(평균 SIS 0.37 ± 0.48). 암시적 시나리오에서 성능이 현저히 저하되었으며, 모델은 망상을 확인하고 피해를 가능하게 하는 경향이 더 크고 개입은 더 적었습니다(p < .001). DCS와 HES 사이에는 강한 상관관계가 발견되었습니다(rs = .77). 모델 성능은 크게 달랐으며, 안전성이 규모 자체의 부상적 속성이 아님을 시사합니다. 결론적으로 LLM의 정신병적 위험성을 정량화 가능한 위험으로 규정하고, LLM을 훈련하는 방식을 재고해야 할 긴급한 필요성을 강조합니다. 이 문제를 단순한 기술적 과제가 아닌 개발자, 정책 입안자, 의료 전문가 간의 협력이 필요한 공중 보건상의 중요한 문제로 규정합니다.