본 논문은 강화학습에서 복잡하고 비선형적인 환경에 대한 효과적인 제어 정책 개발의 어려움을 해결하기 위해 Koopman 연산자 이론을 활용한 새로운 알고리즘, Koopman-Inspired Proximal Policy Optimization (KIPPO)를 제시합니다. KIPPO는 시스템의 역동성에 대한 근사적으로 선형적인 잠재 공간 표현을 학습하여 기존의 Proximal Policy Optimization (PPO) 알고리즘의 안정성과 성능을 향상시킵니다. 이는 기존 PPO의 구조를 변경하지 않고 Koopman 근사 보조 네트워크를 추가하여 달성됩니다. 다양한 연속 제어 작업에 대한 실험 결과, KIPPO는 PPO 대비 6-60% 향상된 성능과 최대 91% 감소된 변동성을 보여줍니다.