본 논문은 대규모 언어 모델(LLM)이 사회적 맥락에서 어떻게 도덕적 판단을 표현하고 변화시키는지 분석한다. 이를 위해 LLM에게 특정 캐릭터를 가정하도록 프롬프팅하는 페르소나 역할극을 사용한다. 'Moral Foundations Questionnaire (MFQ)'를 사용하여, 페르소나 간 및 내에서 MFQ 점수의 변동성을 기반으로 도덕적 민감성과 도덕적 견고성을 정량화하는 벤치마크를 제시한다. 모델 계열이 도덕적 견고성에 가장 큰 영향을 미치며, 모델 크기는 체계적인 영향을 미치지 않는다는 것을 발견했다. Claude 계열이 가장 견고하고, Gemini 및 GPT-4 모델이 그 뒤를 이었다. 반면, 도덕적 민감성은 모델 계열 효과가 미미하지만, 계열 내에서 크기가 클수록 더 민감하게 나타났다. 또한 견고성과 민감성은 양의 상관관계를 보였으며, 이는 모델 계열 수준에서 더 두드러졌다. 페르소나 역할극이 없는 모델과 모델 전체에서 평균화된 페르소나에 대한 도덕적 기반 프로파일도 제시되었다.