본 논문은 영화 제작 및 영상 편집에서 중요한 단계인 숏 조립을 위한 에너지 기반 최적화 방법을 제안합니다. 대규모 언어 모델로 생성된 스크립트와 비디오 라이브러리 간의 시각-의미 매칭을 수행하여 후보 숏을 선택하고, 참조 비디오에서 숏의 속성을 추출하여 에너지 기반 모델로 학습합니다. 이를 통해 참조 비디오 스타일과 일치하는 숏 시퀀스를 평가하고, 다양한 구문 규칙을 결합하여 최적화된 숏 조립을 수행합니다. 본 방법은 특정 논리, 내러티브 요구 사항 또는 예술적 스타일에 따라 독립적인 숏의 배열 및 조합을 자동화하고, 참조 비디오의 조립 스타일을 학습하여 시각적으로 일관된 시퀀스를 생성합니다.