Not All Transitions Matter: Evidence from PPO

Author

Haebom

저자

Ajhesh Basnet

💡 개요

본 논문은 강화학습의 on-policy 학습에서 발생하는 연속적인 상태-행동 전환(transition)의 중복성으로 인한 학습 불안정성 문제를 제기합니다. 저자는 롤아웃(rollout)에서 일부 전환을 무작위로 제거하는 간단한 기법을 통해 이러한 중복성을 효과적으로 줄여 학습을 안정화시킬 수 있음을 입증합니다. 제안된 방법은 PPO 알고리즘에 새로운 구성 요소를 추가하지 않고 적용 가능하며, 다양한 환경에서 바닐라 PPO와 유사한 성능을 보이면서도 더 일관된 학습 동역학을 제공합니다.

🔑 시사점 및 한계

•

On-policy 강화학습에서 발생하는 연속적인 전환의 중복성이 학습 불안정성의 숨겨진 원인임을 시사합니다.

•

롤아웃에서 전환을 무작위로 일정 비율(예: 25%) 제거하는 간단한 샘플링 기법이 학습 안정성을 크게 향상시킬 수 있음을 보여줍니다.

•

이 방법은 기존 PPO 구현에 최소한의 수정으로 적용 가능하며, 새로운 알고리즘이나 복잡한 구성 요소 없이도 효과적입니다.

•

향후 연구에서는 다양한 on-policy 알고리즘 및 환경에서의 적용 가능성을 탐색하고, 최적의 전환 제거 비율을 결정하는 보다 일반적인 기준을 제시하는 것이 과제가 될 수 있습니다.

PDF 보기

Made with Slashpage