Cet article se concentre sur le comportement communicatif du ouistiti. Les ouistitis sont des primates aux vocalisations diverses et complexes. Contrairement à la parole humaine, leurs vocalisations sont moins structurées et plus variables, et elles sont enregistrées dans des environnements bruyants, ce qui rend leur analyse difficile. Pour relever ces défis, nous avons pré-entraîné un modèle Transformer à l'aide d'auto-encodeurs masqués (MAE), une méthode d'apprentissage auto-supervisé. Comparé aux CNN, le Transformer pré-entraîné par MAE a surpassé les ouistitis dans les tâches de segmentation sonore, de classification et d'identification du locuteur. Ces résultats démontrent l'utilité des modèles Transformer basés sur l'apprentissage auto-supervisé pour étudier la communication non humaine dans des environnements pauvres en ressources.