KLING AI 1.6 업데이트 : 프롬프트 대응성 개선, 더 일관적이고 역동적인 결과 / 표준 및 프로페셔널 모드를 지원하며, KLING 1.5 모델 대비 전체적으로 195% 향상된 성능을 제공. / 프롬프트 대응성 향상: 동작, 순차적인 움직임 / 카메라 움직임 등에 대한 프롬프트 반응 개선 및 시작 프레임에 없던 요소 생성 능력 강화. 카메라 무브 및 모션브러시 미작동 -- Sora와 VEO2 출시와 함께 모든 비디오 생성 도구들이 바짝 긴장하는 듯하네요.
구글은 삼성과 퀄컴 협력을 통해 확장현실(XR) 플랫폼인 안드로이드 XR을 발표했습니다. Gemini AI를 기반으로 헤드셋과 안경을 통해 현실을 확장하고 새로운 방식으로 탐색, 연결, 창작을 가능하게 하는 플랫폼입니다. Apple Vision Pro 와의 또 다른 대결 구도가 기대됩니다. 언제냐일 뿐, 시장의 방향은 정해져 있어요.
메타(Meta)가 새로운 워터마크 기술 "Meta Video Seal"을 공개했습니다. 이 기술은 영상에 보이지 않는 워터마크를 삽입해, 저작권 보호와 출처 추적을 가능하게 합니다. 이 워터마크는 영상이 흐려지거나 잘리더라도 유지되며, 압축 과정을 거쳐도 손상되지 않습니다. 필요할 경우 특수 도구를 사용해 워터마크를 추출하고, 영상의 출처를 쉽게 확인할 수 있습니다.
AI 비디오 생성 도구 Pika 2.0 이 출시 되었습니다. 피카 2.0 버전 및 상업적 이용은 Pro Plan($35)에서만 사용 가능합니다. 다양한 템플릿과 Scene Ingredients 조합으로 다양한 스타일의 비디오를 쉽게 제작할 수 있게 되었네요. 프롬프트가 결과물에 더 정확히 반영되는 듯 합니다.
메타 모티보는 디지털 아바타의 전신 동작을 자연스럽게 제어하는 AI 모델로, 메타버스와 VR 환경에서 인간다운 움직임과 상호작용을 구현합니다. 비지도 강화학습과 혁신적 알고리즘을 통해 추가 훈련 없이 다양한 작업 수행이 가능하며, 환경 변화에도 높은 적응력을 제공합니다. 메타버스, 게임, VR 등에서 몰입감과 현실감을 크게 높일 기술입니다.
메타(Meta)에서 사람 이미지의 가상 피팅과 포즈를 제어할 수 있는 AI 이미지 생성 기술 “Leffa”를 발표했습니다. 이 프레임워크는 사람 이미지 생성에 특화되어 있으며, 주요 기능으로는 1️⃣ 가상으로 옷을 갈아입힐 수 있는 [가상 피팅]과 2️⃣생성된 인물의 자세를 변경할 수 있는 [포즈 제어]가 있습니다. Leffa는 생성된 이미지의 외모와 자세를 세밀하게 조절할 수 있는 정밀한 제어 기능을 제공하며, 오픈 소스로 공개되어 누구나 사용할 수 있습니다. --- 테스트 결과, [가상 피팅]은 대체로 상의만 반영 되고, [포즈 제어]에서는 얼굴이 이그러지는 편입니다. 불완전.
미드저니 패치워크는 협업과 AI 지원을 지원하는 무한 캔버스로, 우리 상상 속의 세계를 보다 쉽게 시각화하고 발전시킬 수 있는 도구입니다. 먼저 다음과 같은 컨셉추얼한 용어들이 도입되었습니다. : 스토리 월드, 샌드박스, 캔버스, 로비, 포털, 스크랩 / 또 다음과 같은 같은 다양한 기능 용어들이 추가되었습니다. : 툴박스, 액션바, 페인트, 텔미모어, 개더, 스타일 레퍼런스, 카피 앤 인벤토리, 세이브, 셰어
레오나르도에서 다른 이미지에서 스타일을 유사하게 생성하는 Flow State 를 업데이트 했습니다. [More Like This] 버트늘 사용할 수 있습니다. 무료 사용자는 일일 사용 제한이 있습니다. FlowState는 임시 탭으로, 저장하거나 업스케일하는 이미지 외에는 사용 후 사라집니다.
(출시예정) 이제 텍스트 프롬프트를 넘어, 마우스 동작으로 비디오를 정밀하게 제어하는 시대가 열립니다. 구글 딥마인드의 '모션 프롬프팅' 기술은 비디오에 원하는 움직임을 쉽게 추가하고 제어할 수 있습니다. 이 기술은 전문적인 비디오 편집 지식이 없어도 누구나 자연스럽고 역동적인 비디오를 만들 수 있게 해줍니다. 텍스트 프롬프트를 몰라도, 직관적으로 비디오를 변형 제작할 수 있는 거죠.
오늘 우리는 모든 잠재적 예술적 가능성에 대한 검색 과정처럼 창의적인 탐험을 다루는 초기 비디오 키프레이밍 프로토타입을 공유합니다. 이를 통해 정밀한 제어와 우연한 비선형적 발견을 통해 이 광대한 공간을 동시에 탐색할 수 있습니다.
그래프 구조: 잠재 공간의 창
그래프 구조는 프로토타입의 기초입니다. 이미지는 노드로 표현되며 모델의 잠재 공간에서 웨이포인트 역할을 합니다. 이러한 노드는 다른 노드에 연결되어 에지를 생성할 수 있습니다. 에지는 잠재 공간과 시간을 거쳐 첫 번째 프레임에서 마지막 프레임으로 전환되는 비디오입니다.
통제와 우연의 균형
정확한 제어는 광대한 가능성의 공간을 제한하는 데 도움이 되지만, 동시에 변화와 예측 불가능성은 "행복한 사고"로 이어질 수 있습니다. 이는 정확한 제어가 주어졌다면 고려하지 않았을 가능성입니다. 이러한 균형을 맞추기 위해, 우리는 사용자가 일관된 차원에서 예측 불가능성을 허용하는 "관계적" 방식으로 이미지를 조작할 수 있는 두 가지 가능성을 제공합니다.
사용자는 "이미지 대 이미지"를 통해 선택한 이미지를 변형할 수 있습니다. 이는 원래 구성을 보존하면서 텍스트 프롬프트를 통해 스타일을 변경하고, "이미지 변형"은 원래 스타일을 유지하면서 구성을 변경합니다.
비선형 탐색 지원
창의적인 탐색은 거의 직선을 따르지 않습니다. 그래프 구조는 사용자가 다양한 지점에서 분기하여 가능한 대안의 새로운 포크를 만들 수 있도록 하여 자연스럽게 탐색을 제공합니다. 더 많은 탐색이 발생할수록 그래프는 자연스럽게 성장하여 다양한 실험 경로를 추적합니다.
이를 통해 사용자는 비선형 타임라인을 구성할 수 있습니다. 우리는 사용자가 비선형 타임라인을 선형 타임라인이 있는 비디오로 내보낼 수 있도록 시퀀서를 제공하며, 이는 "자신만의 모험을 선택하세요" 경험과 유사합니다.
오픈 워크스페이스
그래프 구조를 넘어, 우리는 작업 공간에 어떠한 조직적 제약도 부과하지 않습니다. 사용자는 노드와 에지를 구성할 수 있는 완전한 자유를 누리며, 프로세스 요구에 따라 관련 탐색을 클러스터링하거나 고유한 창의적 실험을 분리합니다.