Cette étude vise à améliorer les capacités de navigation autonome et d'évitement d'obstacles d'un robot quadrupède simulé grâce à des algorithmes d'apprentissage par renforcement. Nous nous concentrons plus particulièrement sur le développement d'une simulation de chien-guide robotisé pour personnes malvoyantes et espérons contribuer à l'expansion de la recherche sur les animaux robotisés médicaux (tels que les chiens-guides et les chiens d'alerte). Trois algorithmes, Proximal Policy Optimization (PPO), Deep Q-Network (DQN) et Q-learning, ont été comparés, analysés et évalués en fonction de la détection de collision, de l'algorithme de recherche de chemin, de l'utilisation de capteurs, du type de robot et de la plateforme de simulation. Les résultats expérimentaux dans un environnement créé par nos soins ont montré que l'algorithme PPO surpassait les deux autres algorithmes en termes de nombre moyen et médian d'étapes nécessaires pour atteindre le point cible.