본 논문은 로보틱스나 게임에서 instruction-following policy 학습을 위한 데이터 부족 문제를 해결하기 위해, 비지도 학습 데이터인 play trajectories로부터 instruction-trajectory pairs를 추출하는 방법을 제안한다. 기존의 video segmentation 방법의 한계인 segment 길이 변화에 대응하여, Play Segmentation (PS)이라는 확률 모델을 제시한다. PS는 개별 instruction segment만으로 학습되면서도, 긴 subsegment에서 최대 가능성이 있는 segmentation을 찾아낸다. 게임 환경과 시뮬레이션된 로봇 그리퍼 환경에서의 실험 결과, PS를 통해 추출된 labeled segment를 사용하면 무작위로 추출된 segment를 사용하는 것보다 성능이 향상되며, 두 배의 labeled data로 학습된 policy와 유사한 수준의 성능을 달성함을 보여준다.