Studying the Interplay Between the Actor and Critic Representations in Reinforcement Learning
Created by
Haebom
저자
Samuel Garcin, Trevor McInroe, Pablo Samuel Castro, Prakash Panangaden, Christopher G. Lucas, David Abel, Stefano V. Albrecht
개요
본 논문은 고차원 관측치 스트림에서 관련 정보를 추출하는 것이 심층 강화 학습 에이전트에게 중대한 과제임을 다룹니다. 특히 액터-크리틱 알고리즘은 동일한 정보가 액터와 크리틱 모두에게 관련이 있는지 불분명하여 이러한 과제를 더욱 복잡하게 만듭니다. 따라서 본 논문에서는 온-폴리시 알고리즘에서 액터와 크리틱에 대한 효과적인 표현을 뒷받침하는 원리를 탐구합니다. 공유된 표현 대신 분리된 표현이 액터와 크리틱에 유익한지 여부에 대한 이해에 중점을 둡니다. 주요 연구 결과는 표현이 분리될 때 액터와 크리틱의 표현이 환경에서 서로 다른 유형의 정보를 체계적으로 추출하는 데 특화된다는 것입니다. 액터의 표현은 행동 관련 정보에 집중하는 경향이 있는 반면, 크리틱의 표현은 가치 및 역동성 정보를 인코딩하는 데 특화됩니다. 본 논문에서는 다양한 표현 학습 접근 방식이 액터와 크리틱의 특화 및 샘플 효율성과 생성 능력 측면에서 후속 성능에 어떻게 영향을 미치는지 이해하기 위해 엄격한 실증적 연구를 수행합니다. 마지막으로, 분리된 크리틱이 학습 중 탐색 및 데이터 수집에 중요한 역할을 한다는 것을 발견했습니다. 코드, 학습된 모델 및 데이터는 https://github.com/francelico/deac-rep 에서 이용 가능합니다.