본 논문은 복잡한 전환이 포함된 비디오를 사용자의 개방형 스타일 설명을 기반으로 렌더링하는 데 어려움을 겪는 기존 비디오 스타일링 방법의 한계를 해결하기 위해, 다중 모달 대규모 언어 모델의 협업 및 반사 패러다임을 활용한 새로운 일반적인 다중 에이전트 시스템인 V-Stylist를 제시합니다. V-Stylist는 비디오 파서, 스타일 파서, 스타일 아티스트의 세 가지 주요 역할을 가진 시스템적인 워크플로우로 구성됩니다. 비디오 파서는 입력 비디오를 여러 샷으로 분해하고 주요 샷 내용에 대한 텍스트 프롬프트를 생성하며, 스타일 파서는 사용자 질의의 스타일을 식별하고 스타일 트리에서 일치하는 스타일 모델을 점진적으로 검색합니다. 스타일 아티스트는 일치하는 모델을 활용하여 모든 비디오 샷을 필요한 스타일로 렌더링합니다. 새로운 벤치마크인 TVSBench를 구축하여 개방형 사용자 질의에 대한 복잡한 비디오 스타일링 평가를 가능하게 하였으며, V-Stylist는 FRESCO와 ControlVideo를 상당히 능가하는 성능을 보여줍니다.