KLING AI 1.6 업데이트 : 프롬프트 대응성 개선, 더 일관적이고 역동적인 결과 / 표준 및 프로페셔널 모드를 지원하며, KLING 1.5 모델 대비 전체적으로 195% 향상된 성능을 제공. / 프롬프트 대응성 향상: 동작, 순차적인 움직임 / 카메라 움직임 등에 대한 프롬프트 반응 개선 및 시작 프레임에 없던 요소 생성 능력 강화. 카메라 무브 및 모션브러시 미작동 -- Sora와 VEO2 출시와 함께 모든 비디오 생성 도구들이 바짝 긴장하는 듯하네요.
구글은 삼성과 퀄컴 협력을 통해 확장현실(XR) 플랫폼인 안드로이드 XR을 발표했습니다. Gemini AI를 기반으로 헤드셋과 안경을 통해 현실을 확장하고 새로운 방식으로 탐색, 연결, 창작을 가능하게 하는 플랫폼입니다. Apple Vision Pro 와의 또 다른 대결 구도가 기대됩니다. 언제냐일 뿐, 시장의 방향은 정해져 있어요.
메타(Meta)가 새로운 워터마크 기술 "Meta Video Seal"을 공개했습니다. 이 기술은 영상에 보이지 않는 워터마크를 삽입해, 저작권 보호와 출처 추적을 가능하게 합니다. 이 워터마크는 영상이 흐려지거나 잘리더라도 유지되며, 압축 과정을 거쳐도 손상되지 않습니다. 필요할 경우 특수 도구를 사용해 워터마크를 추출하고, 영상의 출처를 쉽게 확인할 수 있습니다.
AI 비디오 생성 도구 Pika 2.0 이 출시 되었습니다. 피카 2.0 버전 및 상업적 이용은 Pro Plan($35)에서만 사용 가능합니다. 다양한 템플릿과 Scene Ingredients 조합으로 다양한 스타일의 비디오를 쉽게 제작할 수 있게 되었네요. 프롬프트가 결과물에 더 정확히 반영되는 듯 합니다.
메타 모티보는 디지털 아바타의 전신 동작을 자연스럽게 제어하는 AI 모델로, 메타버스와 VR 환경에서 인간다운 움직임과 상호작용을 구현합니다. 비지도 강화학습과 혁신적 알고리즘을 통해 추가 훈련 없이 다양한 작업 수행이 가능하며, 환경 변화에도 높은 적응력을 제공합니다. 메타버스, 게임, VR 등에서 몰입감과 현실감을 크게 높일 기술입니다.
메타(Meta)에서 사람 이미지의 가상 피팅과 포즈를 제어할 수 있는 AI 이미지 생성 기술 “Leffa”를 발표했습니다. 이 프레임워크는 사람 이미지 생성에 특화되어 있으며, 주요 기능으로는 1️⃣ 가상으로 옷을 갈아입힐 수 있는 [가상 피팅]과 2️⃣생성된 인물의 자세를 변경할 수 있는 [포즈 제어]가 있습니다. Leffa는 생성된 이미지의 외모와 자세를 세밀하게 조절할 수 있는 정밀한 제어 기능을 제공하며, 오픈 소스로 공개되어 누구나 사용할 수 있습니다. --- 테스트 결과, [가상 피팅]은 대체로 상의만 반영 되고, [포즈 제어]에서는 얼굴이 이그러지는 편입니다. 불완전.
미드저니 패치워크는 협업과 AI 지원을 지원하는 무한 캔버스로, 우리 상상 속의 세계를 보다 쉽게 시각화하고 발전시킬 수 있는 도구입니다. 먼저 다음과 같은 컨셉추얼한 용어들이 도입되었습니다. : 스토리 월드, 샌드박스, 캔버스, 로비, 포털, 스크랩 / 또 다음과 같은 같은 다양한 기능 용어들이 추가되었습니다. : 툴박스, 액션바, 페인트, 텔미모어, 개더, 스타일 레퍼런스, 카피 앤 인벤토리, 세이브, 셰어
레오나르도에서 다른 이미지에서 스타일을 유사하게 생성하는 Flow State 를 업데이트 했습니다. [More Like This] 버트늘 사용할 수 있습니다. 무료 사용자는 일일 사용 제한이 있습니다. FlowState는 임시 탭으로, 저장하거나 업스케일하는 이미지 외에는 사용 후 사라집니다.
(출시예정) 이제 텍스트 프롬프트를 넘어, 마우스 동작으로 비디오를 정밀하게 제어하는 시대가 열립니다. 구글 딥마인드의 '모션 프롬프팅' 기술은 비디오에 원하는 움직임을 쉽게 추가하고 제어할 수 있습니다. 이 기술은 전문적인 비디오 편집 지식이 없어도 누구나 자연스럽고 역동적인 비디오를 만들 수 있게 해줍니다. 텍스트 프롬프트를 몰라도, 직관적으로 비디오를 변형 제작할 수 있는 거죠.
Google DeepMind에서 개발한 Genie 2라는 새로운 대규모 세계 모델에 대한 설명입니다. 주요 내용은 아래와 같습니다:
Genie 2 소개 및 개요
Genie 2는 다양한 액션을 제어할 수 있는 3D 환경을 생성하여 인간 또는 AI 에이전트가 키보드와 마우스를 통해 플레이할 수 있는 모델입니다.
이는 특정 프롬프트 이미지에 기반하여 새롭게 상호작용 가능한 가상 세계를 만들어내며, AI 또는 인간의 행동을 시뮬레이션합니다.
Genie 2의 주요 기능
다양한 환경 생성: Genie 2는 다양한 3D 환경을 생성하여 일반 에이전트의 훈련과 평가를 위한 무한한 커리큘럼을 제공합니다. 이는 제한적인 환경에서 발생할 수 있는 에이전트 훈련의 병목을 해결하는 역할을 합니다. 빠른 프로토타이핑: Genie 2는 인터랙티브한 경험을 빠르게 시제품화할 수 있어, AI 연구자들이 새로운 환경에서 빠르게 실험할 수 있게 합니다. 액션 제어: 키보드 입력을 통한 행동을 수행하며, 예를 들어 화살표 키로 로봇을 조작하거나 물체를 상호작용하는 등의 기능을 제공합니다. 물리적 상호작용 및 캐릭터 애니메이션: 물체 상호작용(예: 문 열기, 풍선 터뜨리기), 캐릭터 애니메이션, 중력 및 조명 효과, 반사, 물 효과 등을 모델링합니다.
기술적 발전 및 응용
오토레그레시브 라텐트 디퓨전 모델: Genie 2는 오토레그레시브 라텐트 디퓨전 모델로, 비디오 데이터를 기반으로 학습하며, 프레임 단위로 행동과 과거 프레임을 바탕으로 시뮬레이션합니다. SIMA 에이전트: Genie 2를 통해 생성된 환경에서 자연어 지시를 통해 3D 게임 세계에서 임무를 수행하는 SIMA라는 에이전트를 훈련합니다. SIMA는 Genie 2가 생성한 환경에서 지정된 행동을 수행하고 평가를 돕습니다.
책임 있는 기술 개발
책임 있는 개발: Genie 2는 대규모 세계 모델을 기반으로 다양한 3D 환경을 생성하는 데 있어 윤리적인 사용을 지향하며, 온라인 및 현실에서 유용한 방식으로 AI 에이전트가 임무를 수행할 수 있도록 연구를 진행하고 있습니다.
미래의 발전 가능성
Genie 2는 AGI(인공지능의 일반화)로 나아가기 위한 중요한 진전으로 평가되며, 구조적인 문제를 해결하는 데 중요한 역할을 할 것으로 기대됩니다.
요약
Genie 2는 단일 프롬프트를 기반으로 다양한 3D 환경을 생성하고, 이를 통해 AI와 인간이 상호작용할 수 있는 새로운 방식의 세계 모델입니다.
게임을 통해 AI의 학습과 평가를 지원하며, 다양한 물리적 상호작용 및 액션 제어 기능을 포함하고 있습니다. 또한 빠른 환경 시제품화와 대규모 학습을 통해 AI 연구 및 창작 과정의 혁신을 추구하고 있습니다.
이 연구는 아직 초기 단계이지만, AI 연구에 있어 다양한 응용 가능성과 큰 발전 가능성을 보여주고 있습니다.