इस अध्ययन का उद्देश्य सुदृढीकरण अधिगम एल्गोरिदम का उपयोग करके एक नकली चतुर्भुज रोबोट की स्वायत्त नेविगेशन और बाधा निवारण क्षमताओं में सुधार करना है। विशेष रूप से, हम दृष्टिबाधित लोगों के लिए एक रोबोट गाइड डॉग के सिमुलेशन के विकास पर ध्यान केंद्रित करते हैं, और चिकित्सा रोबोटिक पशुओं (जैसे गाइड डॉग और सतर्क कुत्ते) पर अनुसंधान के विस्तार में योगदान करने की आशा करते हैं। तीन एल्गोरिदम, प्रॉक्सिमल पॉलिसी ऑप्टिमाइज़ेशन (PPO), डीप क्यू-नेटवर्क (DQN), और क्यू-लर्निंग, की तुलना और विश्लेषण किया गया, और टकराव का पता लगाने, पथ खोज एल्गोरिदम, सेंसर उपयोग, रोबोट प्रकार और सिमुलेशन प्लेटफ़ॉर्म के आधार पर मूल्यांकन किया गया। स्व-निर्मित वातावरण में प्रयोगात्मक परिणामों से पता चला कि लक्ष्य बिंदु तक पहुँचने के लिए आवश्यक चरणों की औसत और माध्यिका संख्या के संदर्भ में PPO एल्गोरिदम ने अन्य दो एल्गोरिदम से बेहतर प्रदर्शन किया।