Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

On-Policy Optimization of ANFIS Policies Using Proximal Policy Optimization

Created by
  • Haebom

저자

Kaaustaaub Shankar, Wilhelm Louw, Kelly Cohen

개요

본 논문은 Proximal Policy Optimization (PPO) 알고리즘을 이용하여 뉴로퍼지 컨트롤러를 학습시키는 강화학습 기반 접근법을 제안합니다. 기존의 적응형 뉴로퍼지 추론 시스템(ANFIS)에 Deep Q-Learning을 적용한 연구를 기반으로, 오프-폴리시 값 기반 프레임워크 대신 안정적인 온-폴리시 액터-크리틱 루프를 사용합니다. CartPole-v1 환경에서 다양한 랜덤 시드를 사용하여 평가하고, ANFIS-DQN 기준 모델과 성능을 비교했습니다. 그 결과, PPO로 학습된 퍼지 에이전트는 20000번의 업데이트 후 CartPole-v1에서 평균 500 +/- 0의 보상을 달성했으며, 기존 DQN 기반 방법보다 훈련 중 분산이 적고 수렴 속도가 더 빠른 것을 보였습니다. 이러한 결과는 PPO가 강화학습 과제에서 설명 가능한 뉴로퍼지 컨트롤러를 학습시키는 유망한 방법임을 시사합니다.

시사점, 한계점

시사점:
PPO를 이용한 뉴로퍼지 컨트롤러 학습은 기존 DQN 기반 방법보다 빠르고 안정적인 학습 성능을 보임.
설명 가능성을 갖는 뉴로퍼지 컨트롤러 학습에 PPO의 효용성을 제시.
강화학습에서 퍼지 시스템의 적용 가능성 확장.
한계점:
CartPole-v1 환경에서만 평가되었으므로, 다른 환경에서의 일반화 성능은 추가 연구가 필요.
제한된 환경에서의 실험 결과이므로, 더욱 복잡한 환경으로의 확장성 검증 필요.
PPO의 하이퍼파라미터 최적화에 대한 자세한 논의 부족.
👍