Bài báo này tập trung vào hành vi giao tiếp của khỉ marmoset. Khỉ marmoset là loài linh trưởng có hệ thống phát âm đa dạng và phức tạp. Không giống như tiếng nói của con người, hệ thống phát âm của chúng ít có cấu trúc và biến đổi hơn, đồng thời được ghi âm trong môi trường nhiều tiếng ồn, khiến việc phân tích trở nên khó khăn. Để giải quyết những thách thức này, chúng tôi đã huấn luyện trước một mô hình Transformer bằng phương pháp Masked Autoencoders (MAE), một phương pháp học tự giám sát. So với CNN, Transformer được huấn luyện trước bằng MAE đã vượt trội hơn khỉ marmoset trong các nhiệm vụ phân đoạn âm thanh, phân loại và nhận dạng người nói. Những kết quả này chứng minh tính hữu ích của các mô hình Transformer dựa trên học tự giám sát trong việc nghiên cứu giao tiếp phi con người trong môi trường thiếu thốn tài nguyên.