본 논문은 확산 모델(DM)을 사용하여 동작 개념이 동일한 비디오 클립 집합으로 지정된 동작을 가진 비디오를 생성하는 동작 사용자 지정을 다룹니다. 기존 연구들은 대규모 사전 학습된 텍스트-비디오 확산 모델에 동작 개념을 표현하고 삽입하는 다양한 방법(예: 동작 LoRA 학습, 잠재 노이즈 잔차 사용 등)을 탐구했지만, 이러한 방법들은 참조 비디오의 외관을 불가피하게 인코딩하여 외관 생성 능력이 약화되는 문제가 있습니다. 본 논문에서는 동작 개념을 인코딩하기 위해 동작 LoRA를 학습하는 일반적인 방식을 따르지만, 시간적 주의 정제(TAP)와 외관 고속도로(AH)라는 두 가지 새로운 전략을 제안하여 동작-외관 분리를 향상시킵니다. TAP에서는 사전 학습된 Value 임베딩이 새로운 동작 생성에 필요한 기본 구성 요소로 충분하다고 가정하고, 시간적 주의를 동작 LoRA로만 재구성하여 Value 임베딩을 재구성하여 새로운 동작을 생성합니다. AH에서는 U-Net의 각 skip connection의 시작점을 각 시간적 주의 모듈의 출력에서 각 공간적 주의 모듈의 출력으로 변경합니다. 실험 결과, 제안된 방법은 기존 연구보다 텍스트 설명과 더 일치하는 외관과 참조 비디오와 더 일관된 동작을 가진 비디오를 생성할 수 있음을 보여줍니다.