본 논문은 자동 음성 인식(ASR)에서 위치 정보를 인코딩하는 방법으로 널리 사용되는 상대적 위치 임베딩(RelPos)의 한계점을 지적하고, 선형 시간 복잡도를 가지는 회전 위치 임베딩(RoPE)을 제안합니다. RoPE는 각 입력 벡터를 절대 위치에 따라 회전시켜 상대적 거리를 암시적으로 인코딩하며, 효율적인 어텐션 구현과 호환됩니다. 논문에서는 다양한 ASR 작업(100시간에서 50,000시간의 데이터, 다양한 음성 유형 및 억양, 스트리밍/비스트리밍 설정)에 걸쳐 RoPE의 성능을 평가합니다.