본 논문은 자동화된 로봇 소화기 내시경(RDE)의 안전하고 효율적인 항해를 위해 인간 개입(HI) 기반 근접 정책 최적화(PPO) 프레임워크인 HI-PPO를 제안합니다. HI-PPO는 강화 학습 기반 RDE 항해 알고리즘의 안전성 문제를 해결하기 위해, 향상된 탐색 메커니즘(EEM), 보상-패널티 조정(RPA), 행동 복제 유사성(BCS)을 통합하여 복잡한 위장 환경에서의 안전한 항해를 위한 PPO의 탐색 비효율성을 해결합니다. 시뮬레이션 플랫폼에서의 비교 실험 결과, HI-PPO는 평균 궤적 오차(ATE) 8.02mm와 안전 점수 0.862를 달성하여 인간 전문가 수준의 성능을 보였습니다.