Este estudio tiene como objetivo mejorar las capacidades de navegación autónoma y evasión de obstáculos de un robot cuadrúpedo simulado mediante algoritmos de aprendizaje por refuerzo. En particular, nos centramos en el desarrollo de una simulación de un perro guía robot para personas con discapacidad visual y esperamos contribuir a la expansión de la investigación sobre animales robóticos médicos (como perros guía y perros de alerta). Se compararon y analizaron tres algoritmos: Optimización de Políticas Proximales (PPO), Red Q Profunda (DQN) y Aprendizaje Q, y se evaluaron en función de la detección de colisiones, el algoritmo de búsqueda de ruta, el uso del sensor, el tipo de robot y la plataforma de simulación. Los resultados experimentales en un entorno de creación propia mostraron que el algoritmo PPO superó a los otros dos algoritmos en términos del número promedio y la mediana de pasos necesarios para alcanzar el punto objetivo.