본 논문은 음악 오디오에서 누락된 악기 파트를 찾아내는 기존 방식의 시간 정보 손실 문제를 해결하기 위해 PHALAR라는 새로운 콘트라스티브 학습 프레임워크를 제안합니다. PHALAR는 학습된 스펙트럴 풀링 레이어와 복소수 헤드를 사용하여 피치 및 위상에 대한 동변성(equivariance)을 강제하며, 이를 통해 최첨단 모델 대비 약 70%의 정확도 향상, 파라미터 수 50% 감소, 7배의 학습 속도 향상을 달성했습니다. PHALAR는 MoisesDB, Slakh, ChocoChorales 데이터셋에서 새로운 검색 성능 기록을 세우고, 인간의 일관성 판단과도 높은 상관관계를 보이며, 제로샷 비트 추적 및 코드 분석에서도 견고한 음악적 구조를 파악하는 능력을 입증했습니다.