본 논문은 대규모 비전-언어 모델(LVLMs)에서 회전 위치 임베딩(RoPE)의 변형이 의도치 않은 교차 모달 위치 편향을 유발하는 문제를 다룹니다. 기존 RoPE는 텍스트 토큰과 이미지 토큰 간에 상대적 위치 의존성을 강제하여 잘못된 정렬을 야기합니다. 이를 해결하기 위해, 모달 간 위치 인코딩의 독립성을 정량화하는 새로운 지표인 Per-Token Distance (PTD)를 제안하고, 이미지 토큰 인덱스를 텍스트 토큰 인덱스와 직교하는 원형 궤적에 매핑하는 Circle-RoPE라는 새로운 인코딩 방식을 제시합니다. 이를 통해 각 텍스트 토큰이 모든 이미지 토큰과 동일한 거리를 유지하도록 하여 인위적인 교차 모달 편향을 줄이면서 이미지 내 공간 정보는 보존합니다. 또한, 계층별로 다른 RoPE 변형을 적용하는 계단식 계층 전략을 제안하여 모델 성능을 향상시킵니다. 실험 결과, 제안된 방법이 이미지의 공간 정보를 효과적으로 보존하면서 상대적 위치 편향을 줄임을 보여줍니다.