본 논문은 Proximal Policy Optimization (PPO) 알고리즘을 이용하여 신경 퍼지 제어기를 훈련시키는 강화 학습 방법을 제시합니다. 기존의 적응형 신경 퍼지 추론 시스템(ANFIS)에 Deep Q-Networks (DQN)을 사용한 방법과 달리, 안정적인 온-폴리시 actor-critic 구조를 활용하는 PPO 기반 프레임워크를 제안합니다. CartPole-v1 환경에서 다양한 시드를 사용하여 평가한 결과, PPO로 훈련된 퍼지 에이전트는 20000번의 업데이트 후 분산이 0인 최대 보상 500을 일관되게 달성하여 안정성과 수렴 속도 측면에서 ANFIS-DQN 기준 모델을 능가했습니다. 이는 강화 학습 과제에서 설명 가능한 신경 퍼지 에이전트를 훈련시키는 데 PPO의 잠재력을 보여줍니다.