본 논문은 사회과학 및 응용 분야에서 인간과 유사한 의사결정 에이전트로서 사용되는 대규모 언어 모델(LLM)의 행동에 미치는 캐릭터와 맥락의 영향을 연구합니다. 특히, 공정성과 친사회적 행동에 대한 고전적 행동 실험인 독재자 게임을 이용하여 LLM의 내부 표상을 조사, 정량화 및 수정하는 방법을 제안하고 실험적으로 검증합니다. LLM의 내부 상태에서 추출한 변수 변화 벡터(예: "남성"에서 "여성"으로)를 조작하여 모델의 의사결정에 대한 변수의 관계를 상당히 바꿀 수 있음을 보여줍니다. 이 접근법은 변압기 기반 모델 내에서 사회적 개념이 어떻게 인코딩되고 설계될 수 있는지 연구하고 규제하는 원칙적인 방법을 제공하며, 학술 및 상업적 응용 분야에서 모두 정렬, 편향 제거 및 사회 시뮬레이션을 위한 AI 에이전트 설계에 시사점을 제공합니다.