Sign In

Data Augmentation for Instruction Following Policies via Trajectory Segmentation

Created by
  • Haebom
Category
Empty

저자

Niklas Hopner, Ilaria Tiddi, Herke van Hoof

개요

본 논문은 로보틱스나 게임에서 instruction-following policy 학습을 위한 데이터 부족 문제를 해결하기 위해, 비지도 학습 데이터인 play trajectories로부터 instruction-trajectory pairs를 추출하는 방법을 제안한다. 기존의 video segmentation 방법의 한계인 segment 길이 변화에 대응하여, Play Segmentation (PS)이라는 확률 모델을 제시한다. PS는 개별 instruction segment만으로 학습되면서도, 긴 subsegment에서 최대 가능성이 있는 segmentation을 찾아낸다. 게임 환경과 시뮬레이션된 로봇 그리퍼 환경에서의 실험 결과, PS를 통해 추출된 labeled segment를 사용하면 무작위로 추출된 segment를 사용하는 것보다 성능이 향상되며, 두 배의 labeled data로 학습된 policy와 유사한 수준의 성능을 달성함을 보여준다.

시사점, 한계점

시사점:
비지도 데이터(play trajectories)를 활용하여 instruction-following policy 학습 성능을 향상시킬 수 있는 새로운 방법 제시.
Play Segmentation (PS) 모델을 통해 segment 길이 변화 문제를 효과적으로 해결.
적은 양의 labeled data로도 높은 성능을 달성 가능.
한계점:
PS 모델의 성능은 segment 길이 변화에 얼마나 민감한지 추가적인 분석 필요.
다양한 게임 환경이나 로봇 작업에 대한 일반화 성능 평가 필요.
실제 로봇 환경에서의 실험 결과가 부족.
👍