본 논문은 부분적으로 관측 가능한 환경에서의 강화 학습(Reinforcement Learning, RL)의 어려움을 해결하기 위해, 가이드와 학습자를 함께 훈련시키는 새로운 프레임워크인 Guided Policy Optimization (GPO)를 제안합니다. GPO는 가이드가 추가적인 정보(예: 시뮬레이션 데이터)를 활용하여 학습자의 정책과 일치하도록 학습자를 안내하며, 주로 모방 학습을 통해 학습자를 훈련시킵니다. 이론적으로 GPO가 기존 방식의 한계를 극복하고 직접적인 강화 학습과 비슷한 최적 성능을 달성함을 보여주며, 부분 관측 및 노이즈가 있는 연속 제어와 메모리 기반 과제를 포함한 다양한 작업에서 기존 방법보다 훨씬 우수한 성능을 보임을 실험적으로 증명합니다.