본 논문은 대규모 언어 모델(LLM)의 표상 공간에서 개인 특성, 가치관, 신념으로 정의되는 페르소나가 어떻게 그리고 어디에 인코딩되는지에 대한 연구를 제시합니다. 다양한 차원 축소 및 패턴 인식 방법을 사용하여, 먼저 이러한 표상의 인코딩에서 가장 큰 차이를 보이는 모델 계층을 식별합니다. 그런 다음 선택된 계층 내의 활성화를 분석하여 특정 페르소나가 다른 페르소나와 비교하여 어떻게 인코딩되는지, 공유된 임베딩 공간과 구별되는 임베딩 공간을 포함하여 조사합니다. 여러 사전 훈련된 디코더 전용 LLM에서 분석된 페르소나가 디코더 계층의 마지막 3분의 1 내에서만 표상 공간에 큰 차이를 보이는 것을 발견했습니다. 도덕적 허무주의와 공리주의와 같은 특정 윤리적 관점에 대해 중첩된 활성화가 관찰되어 다의성의 정도를 나타냅니다. 반대로, 보수주의와 자유주의와 같은 정치적 이데올로기는 더욱 구별되는 영역에서 표현되는 것으로 나타났습니다. 이러한 결과는 LLM이 내부적으로 정보를 어떻게 표현하는지에 대한 이해를 높이고 LLM 출력에서 특정 인간 특성의 변조를 개선하기 위한 향후 노력에 정보를 제공합니다. 본 논문에는 잠재적으로 불쾌한 샘플 문장이 포함되어 있습니다.