En este artículo, proponemos Learn2Diss, un nuevo marco para el aprendizaje autosupervisado de representaciones del habla. A diferencia de los métodos convencionales de predicción de máscaras por fotograma, Learn2Diss aprende tanto las características a nivel de fotograma como las características a nivel de enunciado (hablantes, características del canal, etc.) del habla mediante la combinación de un codificador por fotograma y un codificador por enunciado. El codificador por fotograma aprende representaciones de pseudofonemas basándose en técnicas convencionales de aprendizaje autosupervisado, mientras que el codificador por enunciado aprende representaciones de pseudohablantes basándose en el aprendizaje contrastivo. Ambos codificadores se entrenan por separado utilizando un criterio mutuo basado en información. Mediante diversos experimentos de evaluación de subtareas, demostramos que el codificador por fotograma mejora el rendimiento en tareas semánticas, mientras que el codificador por enunciado mejora el rendimiento en tareas no semánticas. Como resultado, Learn2Diss alcanza un rendimiento de vanguardia en diversas tareas.