본 논문은 PLM 기반 모델의 텍스트 임베딩이 긴 텍스트에서 성능 저하를 보이는 현상을 "Length Collapse" 라고 명명하고, 이 현상의 원인과 해결 방안을 제시합니다. Length Collapse는 긴 텍스트의 임베딩이 서로 유사하게 군집화되는 현상으로, 짧은 텍스트와 긴 텍스트 간의 분포 불일치를 야기하여 다운스트림 작업의 성능 저하를 초래합니다. 본 논문에서는 셀프 어텐션 메커니즘이 저주파 필터 역할을 하며, 텍스트 길이가 증가할수록 저주파 필터링이 강화되어 임베딩이 저주파 성분을 더 많이 유지하게 되는 것을 이론적으로 분석합니다. 이로 인해 입력 토큰 특징이 유사해지고, 결국 긴 텍스트의 임베딩이 군집화되는 Length Collapse 현상이 발생합니다. 이 문제를 해결하기 위해, 본 논문에서는 긴 텍스트와 짧은 텍스트 간의 저주파 필터링 속도 차이를 줄이는 TempScale이라는 간단한 방법을 제안합니다. TempScale은 MTEB에서 0.94%, LongEmbed에서 1.10%의 성능 향상을 가져왔습니다.