본 논문은 지속적인 시각적 제어 과제에 대한 비지도 교차 도메인 강화 학습(RL) 사전 훈련의 효율성과 효과를 높이기 위해 새로운 프레임워크인 CRPTpro(Cross-domain Random Pre-Training with prototypes)를 제안합니다. CRPTpro는 데이터 샘플링과 인코더 사전 훈련을 분리하여 교차 도메인 사전 훈련 데이터셋을 쉽고 빠르게 생성하는 분리된 무작위 수집 방식을 제안합니다. 또한, 서로 다른 도메인에서 일반적으로 사용 가능한 효과적인 시각적 인코더를 사전 훈련하기 위한 새로운 원형 자기 지도 알고리즘을 제시합니다. 사전 훈련된 교차 도메인 인코더는 추가 미세 조정 없이 다양한 도메인(이미 학습된 도메인 또는 미지의 도메인)에서 정의된 어려운 하위 작업에 적용될 수 있습니다. 균형 제어, 로봇 이동 및 조작 등 8가지 어려운 지속적인 시각적 제어 도메인에 대한 광범위한 실험을 통해, CRPTpro는 데이터 수집을 위한 탐색 에이전트에 대한 추가 훈련 없이 하위 정책 학습에서 최첨단 성능을 달성함을 보여줍니다. 특히, 기존 최고 성능 모델인 Proto-RL(C)에 비해 12개의 교차 도메인 하위 작업 중 11개에서 더 나은 성능을 54.5%의 사전 훈련 시간으로 달성하여 사전 훈련 효율성을 크게 향상시켰습니다.