본 논문은 복잡한 조작 작업에 대한 로봇 모방 학습의 일반화 성능 향상을 위해 대규모 다양한 시범 데이터 획득의 어려움을 해결하는 HybridGen 프레임워크를 제시한다. HybridGen은 Vision-Language Model(VLM)과 하이브리드 계획을 통합하는 두 단계 파이프라인을 사용한다. 첫 번째 단계는 VLM을 이용하여 전문가 시범을 분석하고 작업을 전문가 의존적 부분(정밀 제어를 위한 객체 중심 자세 변환)과 계획 가능한 부분으로 분해한다. 두 번째 단계는 경로 계획을 통해 다양한 궤적을 합성하고, 자세 변환을 통해 첫 번째 단계 데이터를 상당히 확장한다. HybridGen은 특정 데이터 형식을 필요로 하지 않고 대량의 훈련 데이터를 생성하여 다양한 모방 학습 알고리즘에 광범위하게 적용될 수 있으며, 실험적으로 여러 알고리즘에서 이를 입증한다. 7가지 작업 및 그 변형에 대한 평가 결과, HybridGen으로 훈련된 에이전트는 최첨단 방법보다 평균 5% 향상된 성능 및 일반화 성능을 달성했다. 특히 가장 어려운 작업 변형에서 HybridGen은 59.7%의 평균 성공률을 달성하여 Mimicgen의 49.5%를 크게 능가했다.