AI Visual News

민트베어가 전하는 AI 이미지 & AI 비디오 뉴스와 정보. 놓치면 안되는 소식만. 민트베어의 인사이트로. 쉽고, 유용하게.
Sora is Open!
  1. AI Video
  1. Sora
  2. AI Films
기다리고 기다리고 기다리고 기다리던 소라님께서 오셨습니다. 비싼 만큼, 현실적 시뮬레이션과 연출 훌륭하구요. 다양한 기능 기대됩니다. 다만, I2V에서는 레퍼런스 이미지의 연출에서 조금 어긋나는 부분이 보입니다. 계속 테스트 해보겠습니다.
2024/12/10
  • mintbear
Sora-01
Sora In London
  1. AI Video
  1. Sora
런던 C21Media Keynote 행사에서 Sora 영상이 시연되었네요. 아주 사실적인 영상과 잘 유지 되는 캐릭터의 일관성이 놀랍습니다. 과연 OpenAI 라이브 행사 12일차에, Sora는 공개될까요?
2024/12/09
  • mintbear
https://slashpage.com/mintbear/SoraInLondon
Hunyuan Video by Tencent
  1. AI Video
  1. Hunyuan
2024년 12월 3일. 중국 텐센트(Tencent)는 강력한 오픈소스 비디오 생성 AI 모델, 훈위안 비디오(Hunyuan Video)를 공개했습니다.
2024/12/07
  • mintbear
https://slashpage.com/mintbear/Hunyuan-01-ref
Hailuo I2V-01-Live
  1. AI Video
  1. Hailuo
현존 가장 강력한 모델인 하이루오(Hailuo)에 새로운 2D 애니메이션 모델이 추가 업데이트 되었습니다. 일러스트, 애니메이션 캐릭터의 매력을 한층 더 살려주네요! 하이루오의 안정적인 일관성을 바탕으로, 너무나도 부드러운 움직임, 다양한 스타일의 유지, 섬세한 감정 표현까지. 너무나도 완벽합니다! 당분간 실사 보다 애니메이션 제작의 매력에 빠지게 될 것 같습니다. - 민트베어
2024/12/04
  • mintbear
Gen-3 비디오 키프레이밍 (프로토타입)
  1. AI Video
  2. Updates
  1. Gen-3
Gen-3에서 키프레이밍 업데이트를 예고했습니다. 무한히 넓은 캔버스 위에서 이미지와 비디오를 생성 및 배치하고 유기적으로 연결하여, 하나의 시퀀스로 완성해가는 웨이 포인트 작업 방식입니다. 이 기능은 마치 ComfyUI, Ideogram의 Canvas, Recraft, Supercraft, Florafauna 와 같은 캔버스 생성 프로세스를 연상 시킵니다. 앞으로 이렇게 직관적인 '콘텐츠 파이프 온 캔버스' 방식은 가장 중요한 작업 프로세스가 될 것 같습니다. 이미지와 비디오 생성과 편집 과정이 훨씬 더 편리해지겠습니다.
2024/12/03
  • mintbear
Fugatto : 오디오 혁신을 예고하는 NVIDIA 생성 AI
  1. AI Sound
  1. NVIDIA
NVIDIA가 텍스트와 오디오 프롬프트를 통해 음악, 음성, 독특한 소리를 생성하고 변환할 수 있는 새로운 생성 AI 모델 'Fugatto'를 공개했습니다. 1) 텍스트 설명을 바탕으로 음악을 생성하거나, 2)기존 음악에 악기를 추가/제거하고, 3) 억양과 감정을 변형하는 등 다양한 오디오 작업이 가능합니다.
2024/12/01
  • mintbear
대한민국AI국제영화제 대상 수상작, Mateo 온라인 상영회(이벤트 종료 / 다음 상영회를 기다려주세요)
  1. AI Video
  1. AI Films
11월 30일, 토요일 오후 2시.
AI 커뮤니티 GPTers 에서 영화 Mateo 마테오 온라인 상영회를 개최합니다.

첨부 링크에서 신청하셔요.
2024/11/30
  • mintbear
Leaked Sora Videos : 소라 API 유출 사건
  1. AI Video
  1. Sora
OpenAI의 비디오 생성 AI ’소라(Sora)’가 정식 출시 전, API가 잠시 유출되는 사건이 발생했습니다. 여러 유저들에 의해 테스트 되고 유출된 영상은 1080p 해상도의 10초 비디오들로, 시뮬레이션 퀄리티는 매우 높으나, 아직 Text-to-Video 컨트롤이 잘 되지는 않는 부분도 보였습니다. 그 이면에 숨은 이야기도 들어보셔요.
2024/11/27
  • mintbear
Leaked Sora Gallery
  1. AI Video
  1. Sora
유출된 소라 비디오 갤러리, 87개의 비디오와 프롬프트 전체
2024/11/27
  • mintbear
루마 Luma updates - with Image Tools
  1. AI Image
  2. AI Video
  3. Updates
  1. Luma
2024/11/25
  • mintbear
일반 유저를 위한 Flux.1 Tools 소개
  1. AI Image
  1. Flux
FLUX.1 Tools 는 Flux.1 사용자를 위한 Tools (: 편집 도구 모음)으로, 1 Fill, Depth, Canny, Redux 라는 네 가지 기능의 모듈로 공개 되었습니다. 이미 Stable Diffusion 에서 작동하던 기능이지만, 이제 고퀄리티 이미지의 Flux.1 를 더 다양하게 활용할 수 있게 되었네요.
2024/11/22
  • mintbear
© 2024.07 mintbear. All Rights Reserved.

Gen-3 비디오 키프레이밍 (프로토타입)

Status
2024.12
Summary
Gen-3에서 키프레이밍 업데이트를 예고했습니다. 무한히 넓은 캔버스 위에서 이미지와 비디오를 생성 및 배치하고 유기적으로 연결하여, 하나의 시퀀스로 완성해가는 웨이 포인트 작업 방식입니다. 이 기능은 마치 ComfyUI, Ideogram의 Canvas, Recraft, Supercraft, Florafauna 와 같은 캔버스 생성 프로세스를 연상 시킵니다. 앞으로 이렇게 직관적인 '콘텐츠 파이프 온 캔버스' 방식은 가장 중요한 작업 프로세스가 될 것 같습니다. 이미지와 비디오 생성과 편집 과정이 훨씬 더 편리해지겠습니다.
Category
  1. Gen-3
Tag
  1. AI Video
  2. Updates
Dates
2024/12/03
Created by
  • mintbear

Gen-3 비디오 키프레이밍

mintbear 2024.12.04
Runway에서 'Gen-3 비디오 키프레이밍' 기능 업데이트를 예고했습니다.
Video Creating and Editing on White Canvas!

Key Frame? Key Framing?

RunwayML에서는 이 새로운 기능을 [KeyFraming]이라고 명명하고 있어요. 왜 키프레이밍이라는 이름을 붙였을까요?
원래 Key-Frame은 영화나 애니메이션의 타임라인에서 어떠한 움직임을 결정하는 시작점이나 끝점을 의미하죠. 영상의 타임라인에 캐릭터나 사물이 움직이는 시작과 끝의 기준점을 설정해서, 그 키프레임 기준으로 애니메이션의 움직임이 시작되거나 멈추게 됩니다. 또 영상 편집 과정에서 영상/음향 소스를 자르거나 새로운 컷을 넣는 중요한 기준점이 되기도하죠.
그리고 Key-Framing은 이러한 Key-Frame 설정을 이용하여 애니메이션의 각 프레임 사이를 자동으로 계산하고 연결하는 과정을 말합니다. 즉, 캐릭터의 동작이나 위치의 처음과 끝 프레임을 설정한 후 나머지 변화를 자동으로 만들어내는 방식으로, 복잡한 애니메이션이나 비디오 편집 과정을 훨씬 더 효율적으로 처리할 수 있게 합니다.
따라서 Key-Framing은 정밀한 움직임 제어와 자동화를 결합하여 우리가 복잡한 작업을 손쉽게 관리할 수 있도록 돕는 중요한 도구라고 할 수 있습니다. Gen-3의 키프레이밍도 그러한 편리성을 제공하려는 것 같아요.
사실 Gen-3에 시작(FirstFrame)이나 끝(LastFrame)의 기준이 되는 포인트에 레퍼런스 이미지를 넣어 전후의 비디오를 생성하는 KeyFrames 라고 하는 기능을 이미 제공하고 있었죠. 유사한 네이밍의 이번 기능도 사실은 그 기능의 연장선에 있습니다.
[ 기존의 Gen-3 KeyFrames 기능 ]

그럼 Gen-3 Key Framing 은 무슨 기능인가요?

이 기능은 무한히 넓은 캔버스 위에서 이미지와 비디오를 생성하고 배치한 후, 서로를 유기적으로 연결하여 하나의 시퀀스로 완성해가는 방식입니다. 각 콘텐츠를 노드로 설정하고 연결하며 참조하는 일종의 Way-Point 기반 작업이죠. 하나 하나의 이미지와 비디오는 노드가 되고, 중요한 키프레임이 되는 것입니다.
AI 생성 및 편집 과정에 정말 수많은 B-Cut 이미지와 비디오가 만들어지는데, 이 모든 자원을 저장하고 찾아내고 비교하고 버전 관리하는 것은 정말 정말 정말 번거로운 일입니다. 따라서 이러한 캔버스 작업 방식은 수많은 생성 콘텐츠를 직관적으로 비교하고 개선 방향을 찾는 데 매우 직관적이고 효과적입니다.
그래서 앞으로는 이렇게 직관적인 '캔버스 위의 콘텐츠 파이프라인' 방식이 주된 작업 프로세스로 자리 잡을 것 같습니다. 이미 ComfyUI의 Pipe-Line, Ideogram의 캔버스, Recraft, Supercraft, Florafauna 등에서 이와 같은 도구에서 캔버스 기반의 유기적 생성 프로세스를 확인할 수 있습니다.
아직은 예고된 기능이기 때문에 바로 사용할 수는 없지만, 미래의 작업 흐름을 충분히 예상해볼 수 있겠습니다.

Gen-3 KeyFraming 에서 비디오를 생성하는 방법 (미리보기)

위의 공식 문서에는 아래와 같은 작업 예시가 공개되어 있습니다.
정리해보면, 하얀 캔버스 위에 아래와 같은 [Gen-3 비디오 생성 시나리오]를 생각해 볼 수 있습니다.
[Gen-3 비디오 생성 시나리오]
step 01. 빈 캔버스에 이미지를 생성하고, 자유롭게 배치
step 02. 이미지와 이미지를 연결하여, 비디오 생성
step 03. 이미지의 변주 생성(Create Variation) 가능
step 04. 이미지-투-이미지로, 레퍼런스 이미지의 리스타일링 가능
step 05. 비디오 중간 지점을 키프레임으로 잡아, 새로운 영상 생성 가능
step 06. 여러 비디오 사이에 경로를 연결하여, 하나의 시퀀스로 출력
step 07. 콘텐츠가 자유롭게 확장하는 무한 캔버스

Step 01. Creating Node : IMAGE on canvas

빈 캔버스에 이미지를 생성하고, 자유롭게 배치할 수 있습니다.

Step 02. Connecting : IMAGE + IMAGE = VIDEO

이미지와 이미지를 연결하여 비디오를 생성합니다.

Step 03. Image Serendifity : Variation Upgrade

이미지를 Create Variation하여, 유사하지만 더 다양한 스타일과 구도의 이미지를 만날 수 있습니다.

Step 04. Re-Styling : Image-to-Image

이미지-투-이미지(I2I) 기능이 지원되어, 텍스트 프롬프트와 함께 기존 레퍼런스 이미지를 리스타일링 할 수 있습니다.

Step 05. Non-linear : Branch Video

비디오의 중간 지점을 [키프레임]으로 잡아, 새로운 영상을 생성할 수 있습니다. 새로운 비선형 가지를 만들어 나갑니다.

step 06. Sequencer : VIDEO by Path

여러 비디오 키프레임 사이에 경로를 연결하고 순서를 넘버링하여, 하나의 시퀀스 영상으로 출력합니다.
직관적 인터페이스 덕분에 새로운 구조의 비디오도 생성할 수 있고, 아마 loop 영상도 가능하겠네요!

step 07. Open Workspace :

연결되는 파이프 라인의 그래프 구조를 제외하면, 캔버스의 모든 공간은 자유롭게 무한 확장 합니다.
프로젝트 목적과 이미지 기준에 따라 공간적으로 분류 배치하고, 여러 버전의 레퍼런스를 시각적화하여 쉽게 비교하고, 전체 타임라인을 상상하며 생성할 수 있겠습니다.

마무리

현재 유용한 비디오 생성 도구 중에 이러한 캔버스 구조를 지원하는 도구는 ComfyUI를 닮은 Florafauna.ai 정도인 것 같습니다. 캔버스 위에 파이프 라인으로 이미지를 생성 업그레이드 하며, 최종적으로는 비디오 생성까지 연결되는 구조이죠. 개인적으로 가장 인상적인 도구였습니다.
최근 Luma Dream Machine 에서 대화형 Board를 도입해서 이미지와 비디오의 변환과 참조를 매우 자유롭게 열어두었지만, 온전히 캔버스 구조라고 하기에는 자유롭지 않은 구조였습니다.
또 일관성과 안정적 퀄리티에서 HailuoKling 이 앞서 달려가고 있지만, 여전히 다양한 기능과 기술적 단단함이 있는 Gen-3의 새로운 도전에 기대가 됩니다.
감사합니다.
fn. mintbear 🍀🧸

Reference

Runway의 공식 문서와 메시지는 아래를 참고하세요.

Creativity as Search: Mapping Latent Space ( 2024.12.02 by RunwayML)

Posting about Video KeyFraming ( 2024.12.03 by RunwayML on X)


오늘 우리는 모든 잠재적 예술적 가능성에 대한 검색 과정처럼 창의적인 탐험을 다루는 초기 비디오 키프레이밍 프로토타입을 공유합니다. 이를 통해 정밀한 제어와 우연한 비선형적 발견을 통해 이 광대한 공간을 동시에 탐색할 수 있습니다.


그래프 구조: 잠재 공간의 창


그래프 구조는 프로토타입의 기초입니다. 이미지는 노드로 표현되며 모델의 잠재 공간에서 웨이포인트 역할을 합니다. 이러한 노드는 다른 노드에 연결되어 에지를 생성할 수 있습니다. 에지는 잠재 공간과 시간을 거쳐 첫 번째 프레임에서 마지막 프레임으로 전환되는 비디오입니다.

통제와 우연의 균형

정확한 제어는 광대한 가능성의 공간을 제한하는 데 도움이 되지만, 동시에 변화와 예측 불가능성은 "행복한 사고"로 이어질 수 있습니다. 이는 정확한 제어가 주어졌다면 고려하지 않았을 가능성입니다. 이러한 균형을 맞추기 위해, 우리는 사용자가 일관된 차원에서 예측 불가능성을 허용하는 "관계적" 방식으로 이미지를 조작할 수 있는 두 가지 가능성을 제공합니다.

사용자는 "이미지 대 이미지"를 통해 선택한 이미지를 변형할 수 있습니다. 이는 원래 구성을 보존하면서 텍스트 프롬프트를 통해 스타일을 변경하고, "이미지 변형"은 원래 스타일을 유지하면서 구성을 변경합니다.

비선형 탐색 지원

창의적인 탐색은 거의 직선을 따르지 않습니다. 그래프 구조는 사용자가 다양한 지점에서 분기하여 가능한 대안의 새로운 포크를 만들 수 있도록 하여 자연스럽게 탐색을 제공합니다. 더 많은 탐색이 발생할수록 그래프는 자연스럽게 성장하여 다양한 실험 경로를 추적합니다.

이를 통해 사용자는 비선형 타임라인을 구성할 수 있습니다. 우리는 사용자가 비선형 타임라인을 선형 타임라인이 있는 비디오로 내보낼 수 있도록 시퀀서를 제공하며, 이는 "자신만의 모험을 선택하세요" 경험과 유사합니다.


오픈 워크스페이스


그래프 구조를 넘어, 우리는 작업 공간에 어떠한 조직적 제약도 부과하지 않습니다. 사용자는 노드와 에지를 구성할 수 있는 완전한 자유를 누리며, 프로세스 요구에 따라 관련 탐색을 클러스터링하거나 고유한 창의적 실험을 분리합니다.


감사합니다. 도움이 되셨다면, 아래에 좋아요나 댓글을 남겨주세요.
2024 민트베어.
👍