この研究は、強化学習アルゴリズムを使用してシミュレートされた4足歩行ロボットの自律走行および障害物回避能力を向上させることを目的としています。特に視覚障害者のためのロボット案内犬シミュレーションの開発に焦点を当てており、医療用ロボット動物(案内犬や警告犬など)の研究拡大に貢献しようとしている。 Proximal Policy Optimization(PPO)、Deep Q-Network(DQN)、Q-learningの3つのアルゴリズムを比較分析し、衝突検出、経路探索アルゴリズム、センサー使用、ロボットタイプ、シミュレーションプラットフォームなどに基づいて評価した。自作環境での実験結果は,PPOアルゴリズムが他の2つのアルゴリズムよりも目標点到達に必要な平均および中央値ステップ数の点で優れた性能を示した。