Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Cross-domain Random Pre-training with Prototypes for Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Xin Liu, Yaran Chen, Haoran Li, Boyu Li, Dongbin Zhao

개요

본 논문은 지속적인 시각적 제어 과제에 대한 비지도 교차 도메인 강화 학습(RL) 사전 훈련의 효율성과 효과를 높이기 위해 새로운 프레임워크인 CRPTpro(Cross-domain Random Pre-Training with prototypes)를 제안합니다. CRPTpro는 데이터 샘플링과 인코더 사전 훈련을 분리하여 교차 도메인 사전 훈련 데이터셋을 쉽고 빠르게 생성하는 분리된 무작위 수집 방식을 제안합니다. 또한, 서로 다른 도메인에서 일반적으로 사용 가능한 효과적인 시각적 인코더를 사전 훈련하기 위한 새로운 원형 자기 지도 알고리즘을 제시합니다. 사전 훈련된 교차 도메인 인코더는 추가 미세 조정 없이 다양한 도메인(이미 학습된 도메인 또는 미지의 도메인)에서 정의된 어려운 하위 작업에 적용될 수 있습니다. 균형 제어, 로봇 이동 및 조작 등 8가지 어려운 지속적인 시각적 제어 도메인에 대한 광범위한 실험을 통해, CRPTpro는 데이터 수집을 위한 탐색 에이전트에 대한 추가 훈련 없이 하위 정책 학습에서 최첨단 성능을 달성함을 보여줍니다. 특히, 기존 최고 성능 모델인 Proto-RL(C)에 비해 12개의 교차 도메인 하위 작업 중 11개에서 더 나은 성능을 54.5%의 사전 훈련 시간으로 달성하여 사전 훈련 효율성을 크게 향상시켰습니다.

시사점, 한계점

시사점:
비지도 교차 도메인 강화학습 사전 훈련의 효율성과 효과를 크게 향상시킨 CRPTpro 프레임워크 제시.
데이터 샘플링과 인코더 사전 훈련의 분리 및 원형 자기 지도 알고리즘을 통한 효과적인 시각적 인코더 사전 훈련 성공.
추가 미세 조정 없이 다양한 도메인의 하위 작업에 적용 가능성 증명.
기존 최고 성능 모델 대비 향상된 성능 및 사전 훈련 시간 단축.
한계점:
논문에서 제시된 8개의 지속적인 시각적 제어 도메인 외 다른 도메인으로의 일반화 가능성에 대한 추가 연구 필요.
사전 훈련 데이터셋의 크기 및 다양성에 따른 성능 변화에 대한 분석 필요.
CRPTpro의 성능 향상이 특정 하이퍼파라미터 설정에 의존할 가능성에 대한 검토 필요.
👍