비디오 LLM은 프레임 타이밍의 작은 변화에도 민감하여, 멀티모달 RoPE를 통해 비디오에 확장된 로터리 위치 임베딩(Rotary Position Embeddings)으로 인해 발생하는 시간적 불일치성을 겪습니다. 이 논문은 이러한 불안정성이 인접 프레임에 서로 다른 요인을 곱하는 프레임 스케일의 리플을 나타내는 유도된 역 푸리에 시간 커널에서 기인함을 밝힙니다. 저자들은 PAS(Phase Aggregated Smoothing)라는 훈련이 필요 없는 간단한 메커니즘을 제시합니다. PAS는 작은 반대 위상 오프셋을 헤드에 적용하고 출력을 집계하여 시간 커널을 효과적으로 평활화하고 위치 인코딩 구조를 변경하지 않고 위상 민감도를 줄입니다. 실험 결과, PAS는 비디오 이해 벤치마크에서 일관된 개선을 보였으며, 계산 오버헤드는 무시할 만했습니다.