본 논문은 대규모 언어 모델(LLM)의 인격 특성을 체계적으로 분석하여, 훈련 단계에 따른 특성 발현의 역동성, 자기 보고된 특성의 행동 예측 유효성, 그리고 페르소나 주입과 같은 개입의 영향을 평가합니다. 연구 결과, 지시어 정렬(예: RLHF, instruction tuning)이 특성 발현을 안정시키고 인간 데이터와 유사하게 특성 상관관계를 강화하지만, 자기 보고된 특성이 행동을 신뢰할 수 있게 예측하지 못하며, 관찰된 연관성이 인간의 패턴과 종종 일치하지 않음을 보여줍니다. 페르소나 주입은 자기 보고를 원하는 방향으로 성공적으로 이끌지만, 실제 행동에는 거의 영향을 미치지 않거나 일관성이 없는 영향을 미칩니다. 따라서 표면적인 특성 발현과 행동 일관성을 구분함으로써, LLM의 인격에 대한 가정에 의문을 제기하고 정렬 및 해석성에 대한 더 깊은 평가의 필요성을 강조합니다.