본 연구는 강화 학습 알고리즘을 이용하여 시뮬레이션된 4족 보행 로봇의 자율 주행 및 장애물 회피 능력을 향상시키는 것을 목표로 한다. 특히 시각장애인을 위한 로봇 안내견 시뮬레이션 개발에 초점을 맞추고 있으며, 의료용 로봇 동물(안내견 및 경고견 등) 연구 확장에 기여하고자 한다. Proximal Policy Optimization (PPO), Deep Q-Network (DQN), Q-learning 세 가지 알고리즘을 비교 분석하여, 충돌 탐지, 경로 탐색 알고리즘, 센서 사용, 로봇 유형 및 시뮬레이션 플랫폼 등을 기준으로 평가하였다. 자체 제작 환경에서의 실험 결과, PPO 알고리즘이 다른 두 알고리즘보다 목표 지점 도달에 필요한 평균 및 중앙값 단계 수 측면에서 우수한 성능을 보였다.