본 논문은 로봇 조작 정책 학습에 필요한 많은 데모 및/또는 환경 롤아웃을 줄이기 위해, 사람이 그린 2D 스케치 궤적을 활용하여 강화 학습을 부트스트랩하고 안내하는 새로운 프레임워크인 Sketch-to-Skill을 제안합니다. Sketch-to-3D Trajectory Generator를 사용하여 2D 스케치를 3D 궤적으로 변환하고, 이를 통해 초기 데모를 자율적으로 수집합니다. 이 스케치 생성 데모는 행동 복제를 통한 초기 정책 사전 훈련과 안내 탐색을 통한 강화 학습을 통한 정책 개선에 사용됩니다. 실험 결과, Sketch-to-Skill은 원격 조작 데모 데이터를 활용하는 기준 모델 성능의 약 96%를 달성하면서, 순수 강화 학습 정책의 성능을 약 170% 초과하는 것으로 나타났습니다. 이는 스케치 입력만으로 가능합니다.