본 논문은 Rotary Position Embeddings (RoPE)를 사용하는 Transformer 모델이 위치 인코딩의 이론적 한계를 보완하기 위해 어떻게 등장하는 웨이블릿과 유사한 특성을 개발하는지 연구합니다. 모델 규모, 아키텍처 및 훈련 체크포인트에 걸친 분석을 통해 어텐션 헤드가 웨이블릿 변환과 유사한 다중 해상도 처리를 구현하도록 진화함을 보여줍니다. 이러한 척도 불변 동작은 RoPE에 고유하며, 훈련 중 독특한 진화 단계를 거쳐 등장하며, 통계적으로 기본적인 불확정성 원리를 준수함을 보여줍니다. 본 연구 결과는 최신 Transformer의 효과는 고유한 아키텍처 제약을 해결하기 위해 자발적으로 최적의 다중 해상도 분해를 개발하는 놀라운 능력에서 비롯됨을 시사합니다.