본 논문은 Proximal Policy Optimization (PPO) 알고리즘을 이용하여 뉴로퍼지 컨트롤러를 학습시키는 강화학습 기반 접근법을 제안합니다. 기존의 적응형 뉴로퍼지 추론 시스템(ANFIS)에 Deep Q-Learning을 적용한 연구를 기반으로, 오프-폴리시 값 기반 프레임워크 대신 안정적인 온-폴리시 액터-크리틱 루프를 사용합니다. CartPole-v1 환경에서 다양한 랜덤 시드를 사용하여 평가하고, ANFIS-DQN 기준 모델과 성능을 비교했습니다. 그 결과, PPO로 학습된 퍼지 에이전트는 20000번의 업데이트 후 CartPole-v1에서 평균 500 +/- 0의 보상을 달성했으며, 기존 DQN 기반 방법보다 훈련 중 분산이 적고 수렴 속도가 더 빠른 것을 보였습니다. 이러한 결과는 PPO가 강화학습 과제에서 설명 가능한 뉴로퍼지 컨트롤러를 학습시키는 유망한 방법임을 시사합니다.