Dans cet article, nous présentons un nouveau cadre d'apprentissage, LEGO-H, pour l'escalade de robots humanoïdes autonomes sur des sentiers complexes. LEGO-H est une technologie qui intègre la perception visuelle, la prise de décision et l'exécution motrice. Il utilise un transformateur de vision temporelle adapté à un cadre d'apprentissage par renforcement hiérarchique pour prédire les objectifs locaux futurs et guider les mouvements. De plus, nous améliorons les méthodes d'apprentissage privilégié grâce à des représentations latentes de schémas de mouvements articulaires combinées à un apprentissage métrique hiérarchique, permettant un transfert fluide des politiques de l'entraînement à l'exécution embarquée. Grâce à des expériences sur divers sentiers et géométries de robots simulés, nous démontrons la polyvalence et la robustesse de LEGO-H et présentons une nouvelle référence pour l'autonomie des robots humanoïdes.