본 논문은 오프라인 목표 조건 강화 학습(GCRL)의 확장성 문제를 해결하기 위해, 부트스트래핑 기반의 평평한(비계층적) 목표 조건 정책 학습 알고리즘을 제안합니다. 기존 계층적 강화 학습 방법의 복잡성과 고차원 목표 공간으로의 확장성 한계를 극복하기 위해, 이점 가중 중요도 샘플링을 사용하여 하위 목표 조건 정책으로부터 부트스트래핑하는 방식을 채택합니다. 이를 통해 하위 목표 공간에 대한 생성 모델을 필요로 하지 않아, 고차원 상태 공간에서의 고차원 제어 문제로의 확장성을 높입니다. 다양한 로코모션 및 조작 벤치마크에서 기존 최첨단 알고리즘과 비교하여 성능이 우수함을 보이며, 기존 방법이 실패하는 복잡하고 장기적인 작업에도 확장 가능함을 입증합니다.