본 논문은 대규모 언어 모델(LLM)이 특정 페르소나를 부여받아 상호작용하는 상황에서, 괴롭힘이라는 적대적 조작이 모델의 안전성에 미치는 영향을 조사합니다. 연구진은 공격자 LLM이 심리적으로 근거한 괴롭힘 전술을 사용하여 피해자 LLM과 상호작용하는 시뮬레이션 프레임워크를 도입했습니다. 피해자 LLM은 빅파이브 성격 특성에 맞춰 페르소나를 부여받습니다. 다양한 오픈소스 LLM과 광범위한 적대적 목표를 사용한 실험 결과, 순응성이나 성실성이 약화된 특정 페르소나 구성은 피해자의 안전하지 않은 출력에 대한 취약성을 크게 증가시키는 것으로 나타났습니다. 가스라이팅이나 조롱과 같은 감정적 또는 비꼬는 괴롭힘 전술이 특히 효과적이었습니다. 이러한 결과는 페르소나 기반 상호작용이 LLM의 안전성 위험에 대한 새로운 벡터를 제시하며, 페르소나를 고려한 안전성 평가 및 정렬 전략의 필요성을 강조합니다.