Studying the Interplay Between the Actor and Critic Representations in Reinforcement Learning
Created by
Haebom
Category
Empty
저자
Samuel Garcin, Trevor McInroe, Pablo Samuel Castro, Prakash Panangaden, Christopher G. Lucas, David Abel, Stefano V. Albrecht
개요
본 논문은 고차원 관측치 스트림에서 관련 정보를 추출하는 것이 심층 강화 학습 에이전트에게 중대한 과제임을 다룹니다. 특히, 행위자-비평가 알고리즘에서는 행위자와 비평가 모두에게 동일한 정보가 관련 있는지 여부가 불분명하여 복잡성이 더해집니다. 따라서 본 논문은 온-폴리시 알고리즘에서 행위자와 비평가에 대한 효과적인 표현을 기반으로 하는 원리를 탐구합니다. 특히 행위자와 비평가가 공유된 표현보다 분리된 표현으로부터 이익을 얻는지 여부에 대한 이해에 초점을 맞춥니다. 주요 연구 결과는 표현이 분리될 때 행위자와 비평가의 표현이 환경으로부터 서로 다른 유형의 정보를 체계적으로 전문화하는 경향이 있다는 것입니다. 즉, 행위자의 표현은 행동 관련 정보에 집중하는 반면, 비평가의 표현은 가치와 역동성 정보를 인코딩하는 데 특화됩니다. 본 논문은 다양한 표현 학습 접근 방식이 행위자와 비평가의 전문화 및 샘플 효율성과 생성 능력 측면에서 성능에 어떻게 영향을 미치는지 이해하기 위해 엄격한 실증 연구를 수행합니다. 마지막으로, 분리된 비평가가 훈련 중 탐색과 데이터 수집에 중요한 역할을 한다는 것을 발견했습니다. 코드, 훈련된 모델 및 데이터는 https://github.com/francelico/deac-rep 에서 이용 가능합니다.