학습 기반의 동작 계획은 빠르게 최적에 가까운 궤적을 생성할 수 있지만, 대규모 훈련 데이터셋 또는 값비싼 인간 시연 수집이 필요한 경우가 많다. 본 연구에서는 단일 인공 시연으로부터 부드럽고 최적에 가까우며 충돌이 없는 3D Cartesian 궤적을 빠르게 생성하는 대안적인 접근 방식을 제안한다. 이 시연은 동적 움직임 기본 요소(DMP)로 인코딩되고, 정책 기반 강화 학습을 사용하여 반복적으로 재형성되어 다양한 장애물 구성을 위한 다양한 궤적 데이터셋을 생성한다. 이 데이터셋은 점 구름에서 자동으로 파생된 장애물 치수 및 위치를 설명하는 작업 매개변수를 입력으로 받아 궤적을 생성하는 DMP 매개변수를 출력하는 신경망을 훈련하는 데 사용된다. 시뮬레이션 및 실제 로봇 실험에서 이 접근 방식은 계산 및 실행 시간, 궤적 길이 측면에서 RRT-Connect 기준선보다 성능이 우수했으며, 다양한 장애물 기하학 및 엔드 이펙터 치수에 대한 다중 모드 궤적 생성을 지원한다.