본 논문은 강화학습(RL) 게임을 위해 훈련된 Transformer 모델의 임베딩 공간 구조를 탐구합니다. 특히, 에이전트가 "스포트라이트"로 구성된 동적 장애물을 피하면서 "코인"을 수집해야 하는 단순 환경에서 Transformer 기반 Proximal Policy Optimization (PPO) 모델이 시각적 입력을 어떻게 임베딩하는지 조사합니다. LLM에 대한 Robinson 등의 볼륨 성장 변환 연구를 RL 설정에 적용하여 시각적 코인 수집 게임의 토큰 임베딩 공간이 다양체가 아니며, 국소 차원이 지점마다 다를 수 있는 계층화된 공간으로 더 잘 모델링됨을 발견했습니다. 또한, 상당히 일반적인 볼륨 성장 곡선이 계층화된 공간에 의해 실현될 수 있다는 것을 증명하여 Robinson의 방법을 강화했습니다. 마지막으로, RL 에이전트가 행동함에 따라 잠재적 표현이 고정된 하위 전략을 따르는 동안 낮은 국소 차원의 기간과 에이전트가 하위 목표(예: 물체 수집)를 달성하거나 환경 복잡성이 증가(예: 더 많은 장애물 출현)할 때 높은 국소 차원의 급증 사이를 번갈아 가는 것을 시사하는 분석을 수행했습니다. 따라서 본 연구는 계층화된 잠재 공간에서 차원의 분포가 RL 게임의 복잡성에 대한 새로운 기하학적 지표를 제공할 수 있음을 시사합니다.