Gen-3에서 키프레이밍 업데이트를 예고했습니다. 무한히 넓은 캔버스 위에서 이미지와 비디오를 생성 및 배치하고 유기적으로 연결하여, 하나의 시퀀스로 완성해가는 웨이 포인트 작업 방식입니다. 이 기능은 마치 ComfyUI, Ideogram의 Canvas, Recraft, Supercraft, Florafauna 와 같은 캔버스 생성 프로세스를 연상 시킵니다. 앞으로 이렇게 직관적인 '콘텐츠 파이프 온 캔버스' 방식은 가장 중요한 작업 프로세스가 될 것 같습니다. 이미지와 비디오 생성과 편집 과정이 훨씬 더 편리해지겠습니다.
RunwayML에서는 이 새로운 기능을 [KeyFraming]이라고 명명하고 있어요. 왜 키프레이밍이라는 이름을 붙였을까요?
원래 Key-Frame은 영화나 애니메이션의 타임라인에서 어떠한 움직임을 결정하는 시작점이나 끝점을 의미하죠. 영상의 타임라인에 캐릭터나 사물이 움직이는 시작과 끝의 기준점을 설정해서, 그 키프레임 기준으로 애니메이션의 움직임이 시작되거나 멈추게 됩니다. 또 영상 편집 과정에서 영상/음향 소스를 자르거나 새로운 컷을 넣는 중요한 기준점이 되기도하죠.
그리고 Key-Framing은 이러한 Key-Frame 설정을 이용하여 애니메이션의 각 프레임 사이를 자동으로 계산하고 연결하는 과정을 말합니다. 즉, 캐릭터의 동작이나 위치의 처음과 끝 프레임을 설정한 후 나머지 변화를 자동으로 만들어내는 방식으로, 복잡한 애니메이션이나 비디오 편집 과정을 훨씬 더 효율적으로 처리할 수 있게 합니다.
따라서 Key-Framing은 정밀한 움직임 제어와 자동화를 결합하여 우리가 복잡한 작업을 손쉽게 관리할 수 있도록 돕는 중요한 도구라고 할 수 있습니다. Gen-3의 키프레이밍도 그러한 편리성을 제공하려는 것 같아요.
사실 Gen-3에 시작(FirstFrame)이나 끝(LastFrame)의 기준이 되는 포인트에 레퍼런스 이미지를 넣어 전후의 비디오를 생성하는 KeyFrames 라고 하는 기능을 이미 제공하고 있었죠. 유사한 네이밍의 이번 기능도 사실은 그 기능의 연장선에 있습니다.
[ 기존의 Gen-3 KeyFrames 기능 ]
그럼 Gen-3 Key Framing 은 무슨 기능인가요?
이 기능은 무한히 넓은 캔버스 위에서 이미지와 비디오를 생성하고 배치한 후, 서로를 유기적으로 연결하여 하나의 시퀀스로 완성해가는 방식입니다. 각 콘텐츠를 노드로 설정하고 연결하며 참조하는 일종의 Way-Point 기반 작업이죠. 하나 하나의 이미지와 비디오는 노드가 되고, 중요한 키프레임이 되는 것입니다.
AI 생성 및 편집 과정에 정말 수많은 B-Cut 이미지와 비디오가 만들어지는데, 이 모든 자원을 저장하고 찾아내고 비교하고 버전 관리하는 것은 정말 정말 정말 번거로운 일입니다. 따라서 이러한 캔버스 작업 방식은 수많은 생성 콘텐츠를 직관적으로 비교하고 개선 방향을 찾는 데 매우 직관적이고 효과적입니다.
그래서 앞으로는 이렇게 직관적인 '캔버스 위의 콘텐츠 파이프라인' 방식이 주된 작업 프로세스로 자리 잡을 것 같습니다. 이미 ComfyUI의 Pipe-Line, Ideogram의 캔버스, Recraft, Supercraft, Florafauna 등에서 이와 같은 도구에서 캔버스 기반의 유기적 생성 프로세스를 확인할 수 있습니다.
아직은 예고된 기능이기 때문에 바로 사용할 수는 없지만, 미래의 작업 흐름을 충분히 예상해볼 수 있겠습니다.
정리해보면, 하얀 캔버스 위에 아래와 같은 [Gen-3 비디오 생성 시나리오]를 생각해 볼 수 있습니다.
[Gen-3 비디오 생성 시나리오]
step 01. 빈 캔버스에 이미지를 생성하고, 자유롭게 배치
step 02. 이미지와 이미지를 연결하여, 비디오 생성
step 03. 이미지의 변주 생성(Create Variation) 가능
step 04. 이미지-투-이미지로, 레퍼런스 이미지의 리스타일링 가능
step 05. 비디오 중간 지점을 키프레임으로 잡아, 새로운 영상 생성 가능
step 06. 여러 비디오 사이에 경로를 연결하여, 하나의 시퀀스로 출력
step 07. 콘텐츠가 자유롭게 확장하는 무한 캔버스
Step 01. Creating Node : IMAGE on canvas
빈 캔버스에 이미지를 생성하고, 자유롭게 배치할 수 있습니다.
Step 02. Connecting : IMAGE + IMAGE = VIDEO
이미지와 이미지를 연결하여 비디오를 생성합니다.
Step 03. Image Serendifity : Variation Upgrade
이미지를 Create Variation하여, 유사하지만 더 다양한 스타일과 구도의 이미지를 만날 수 있습니다.
Step 04. Re-Styling : Image-to-Image
이미지-투-이미지(I2I) 기능이 지원되어, 텍스트 프롬프트와 함께 기존 레퍼런스 이미지를 리스타일링 할 수 있습니다.
Step 05. Non-linear : Branch Video
비디오의 중간 지점을 [키프레임]으로 잡아, 새로운 영상을 생성할 수 있습니다. 새로운 비선형 가지를 만들어 나갑니다.
step 06. Sequencer : VIDEO by Path
여러 비디오 키프레임 사이에 경로를 연결하고 순서를 넘버링하여, 하나의 시퀀스 영상으로 출력합니다.
직관적 인터페이스 덕분에 새로운 구조의 비디오도 생성할 수 있고, 아마 loop 영상도 가능하겠네요!
step 07. Open Workspace :
연결되는 파이프 라인의 그래프 구조를 제외하면, 캔버스의 모든 공간은 자유롭게 무한 확장 합니다.
프로젝트 목적과 이미지 기준에 따라 공간적으로 분류 배치하고, 여러 버전의 레퍼런스를 시각적화하여 쉽게 비교하고, 전체 타임라인을 상상하며 생성할 수 있겠습니다.
마무리
현재 유용한 비디오 생성 도구 중에 이러한 캔버스 구조를 지원하는 도구는 ComfyUI를 닮은 Florafauna.ai 정도인 것 같습니다. 캔버스 위에 파이프 라인으로 이미지를 생성 업그레이드 하며, 최종적으로는 비디오 생성까지 연결되는 구조이죠. 개인적으로 가장 인상적인 도구였습니다.
Posting about Video KeyFraming ( 2024.12.03 by RunwayML on X)
오늘 우리는 모든 잠재적 예술적 가능성에 대한 검색 과정처럼 창의적인 탐험을 다루는 초기 비디오 키프레이밍 프로토타입을 공유합니다. 이를 통해 정밀한 제어와 우연한 비선형적 발견을 통해 이 광대한 공간을 동시에 탐색할 수 있습니다.
그래프 구조: 잠재 공간의 창
그래프 구조는 프로토타입의 기초입니다. 이미지는 노드로 표현되며 모델의 잠재 공간에서 웨이포인트 역할을 합니다. 이러한 노드는 다른 노드에 연결되어 에지를 생성할 수 있습니다. 에지는 잠재 공간과 시간을 거쳐 첫 번째 프레임에서 마지막 프레임으로 전환되는 비디오입니다.
통제와 우연의 균형
정확한 제어는 광대한 가능성의 공간을 제한하는 데 도움이 되지만, 동시에 변화와 예측 불가능성은 "행복한 사고"로 이어질 수 있습니다. 이는 정확한 제어가 주어졌다면 고려하지 않았을 가능성입니다. 이러한 균형을 맞추기 위해, 우리는 사용자가 일관된 차원에서 예측 불가능성을 허용하는 "관계적" 방식으로 이미지를 조작할 수 있는 두 가지 가능성을 제공합니다.
사용자는 "이미지 대 이미지"를 통해 선택한 이미지를 변형할 수 있습니다. 이는 원래 구성을 보존하면서 텍스트 프롬프트를 통해 스타일을 변경하고, "이미지 변형"은 원래 스타일을 유지하면서 구성을 변경합니다.
비선형 탐색 지원
창의적인 탐색은 거의 직선을 따르지 않습니다. 그래프 구조는 사용자가 다양한 지점에서 분기하여 가능한 대안의 새로운 포크를 만들 수 있도록 하여 자연스럽게 탐색을 제공합니다. 더 많은 탐색이 발생할수록 그래프는 자연스럽게 성장하여 다양한 실험 경로를 추적합니다.
이를 통해 사용자는 비선형 타임라인을 구성할 수 있습니다. 우리는 사용자가 비선형 타임라인을 선형 타임라인이 있는 비디오로 내보낼 수 있도록 시퀀서를 제공하며, 이는 "자신만의 모험을 선택하세요" 경험과 유사합니다.
오픈 워크스페이스
그래프 구조를 넘어, 우리는 작업 공간에 어떠한 조직적 제약도 부과하지 않습니다. 사용자는 노드와 에지를 구성할 수 있는 완전한 자유를 누리며, 프로세스 요구에 따라 관련 탐색을 클러스터링하거나 고유한 창의적 실험을 분리합니다.