본 논문은 마모셋 원숭이의 소통 행동 연구에 초점을 맞추고 있다. 마모셋은 다양하고 복잡한 소리를 내는 영장류로, 인간의 언어와 달리 구조가 덜 체계적이고 변화가 심하며, 잡음이 많은 환경에서 녹음되기 때문에 분석이 어렵다. 이러한 어려움을 해결하기 위해, 본 논문은 자기 지도 학습 방법인 Masked Autoencoders (MAE)를 이용하여 Transformer 모델을 사전 훈련시켰다. CNN과 비교하여, MAE로 사전 훈련된 Transformer는 마모셋의 소리 분절, 분류, 발성자 식별 과제에서 더 나은 성능을 보였다. 이는 저자원 환경의 비인간 의사소통 연구에 있어서 자기 지도 학습 기반의 Transformer 모델의 효용성을 보여주는 결과이다.