본 논문은 대규모 언어 모델(LLM)의 사회적 능력을 활용하는 다양한 응용 프로그램이 등장함에 따라, LLM의 성격 형성의 정확성이 중요해짐을 강조한다. 기존 연구들은 다양한 훈련 데이터와 프롬프트를 이용하여 LLM의 성격을 조절하려는 시도를 해왔다. 본 연구는 프롬프트를 통해 부여된 성격에 따라 LLM이 실제로 사회적 상황에서 일관된 행동을 보이는지, 그리고 그 행동을 세밀하게 조절할 수 있는지를 밀그램 실험과 최후통첩 게임을 이용하여 실험적으로 검증한다. 4개 공개 및 비공개 LLM을 대상으로 한 실험 결과, 모든 모델에서 프롬프트 기반 성격 조절의 실패 사례가 발견되었으며, 프롬프트 변경에도 이러한 실패는 지속되었다. 이는 LLM의 성격 프롬프팅에 대한 낙관적인 시각에 이의를 제기하는 결과이다.