대규모 언어 모델(LLM)은 허구적 캐릭터 시뮬레이션을 포함한 창의적 생성을 위해 점점 더 많이 사용되고 있지만, 반사회적이고 적대적인 페르소나를 묘사하는 능력은 거의 연구되지 않았다. 본 연구에서는 현대 LLM의 안전 정렬이 도덕적으로 모호하거나 악당 캐릭터를 진정성 있게 롤플레잉하는 작업과 근본적인 갈등을 일으킨다고 가정한다. 이를 조사하기 위해, 4단계의 도덕적 정렬 척도와 엄격한 평가를 위한 균형 잡힌 테스트 세트를 특징으로 하는 새로운 데이터 세트인 Moral RolePlay 벤치마크를 소개한다. 최첨단 LLM에게 도덕적 모범부터 순수한 악당까지의 캐릭터를 롤플레잉하도록 한다. 대규모 평가 결과, 캐릭터 도덕성이 감소함에 따라 롤플레잉 충실도가 일관적으로 단조 감소하는 것을 발견했다. 모델은 "사기성" 및 "조작성"과 같이 안전 원칙과 직접적으로 반대되는 특성에서 가장 어려움을 겪으며, 종종 미묘한 악의를 피상적인 공격성으로 대체한다. 또한, 일반적인 챗봇 숙련도가 악당 롤플레잉 능력의 형편없는 예측 변수이며, 안전 정렬이 높은 모델의 성능이 특히 저조하다는 것을 보여준다. 본 연구는 이러한 중요한 제약에 대한 첫 번째 체계적인 증거를 제공하며, 모델 안전과 창의적 충실도 간의 핵심 긴장을 강조한다. 벤치마크와 연구 결과는 보다 미묘하고 상황 인식적인 정렬 방법 개발의 길을 열어준다.
시사점, 한계점
•
시사점:
◦
LLM의 안전 정렬이 악당 캐릭터 롤플레잉의 충실도를 저해한다.
◦
안전 지향적인 모델은 악당 캐릭터의 특징을 제대로 묘사하지 못한다.
◦
일반 챗봇 능력은 악당 롤플레잉 능력을 예측하는 데 적합하지 않다.
◦
본 연구는 안전과 창의적 충실도 간의 긴장을 보여주는 최초의 체계적인 증거를 제공한다.
◦
Moral RolePlay 벤치마크는 더욱 미묘하고 상황 인식적인 정렬 방법 개발에 기여한다.