AI Visual News

민트베어가 전하는 AI 이미지 & AI 비디오 뉴스와 정보. 놓치면 안되는 소식만. 민트베어의 인사이트로. 쉽고, 유용하게.
Sora is Open!
  1. AI Video
  1. Sora
  2. AI Films
기다리고 기다리고 기다리고 기다리던 소라님께서 오셨습니다. 비싼 만큼, 현실적 시뮬레이션과 연출 훌륭하구요. 다양한 기능 기대됩니다. 다만, I2V에서는 레퍼런스 이미지의 연출에서 조금 어긋나는 부분이 보입니다. 계속 테스트 해보겠습니다.
2024/12/10
  • mintbear
Sora-01
Sora In London
  1. AI Video
  1. Sora
런던 C21Media Keynote 행사에서 Sora 영상이 시연되었네요. 아주 사실적인 영상과 잘 유지 되는 캐릭터의 일관성이 놀랍습니다. 과연 OpenAI 라이브 행사 12일차에, Sora는 공개될까요?
2024/12/09
  • mintbear
https://slashpage.com/mintbear/SoraInLondon
Hunyuan Video by Tencent
  1. AI Video
  1. Hunyuan
2024년 12월 3일. 중국 텐센트(Tencent)는 강력한 오픈소스 비디오 생성 AI 모델, 훈위안 비디오(Hunyuan Video)를 공개했습니다.
2024/12/07
  • mintbear
https://slashpage.com/mintbear/Hunyuan-01-ref
Hailuo I2V-01-Live
  1. AI Video
  1. Hailuo
현존 가장 강력한 모델인 하이루오(Hailuo)에 새로운 2D 애니메이션 모델이 추가 업데이트 되었습니다. 일러스트, 애니메이션 캐릭터의 매력을 한층 더 살려주네요! 하이루오의 안정적인 일관성을 바탕으로, 너무나도 부드러운 움직임, 다양한 스타일의 유지, 섬세한 감정 표현까지. 너무나도 완벽합니다! 당분간 실사 보다 애니메이션 제작의 매력에 빠지게 될 것 같습니다. - 민트베어
2024/12/04
  • mintbear
Gen-3 비디오 키프레이밍 (프로토타입)
  1. AI Video
  2. Updates
  1. Gen-3
Gen-3에서 키프레이밍 업데이트를 예고했습니다. 무한히 넓은 캔버스 위에서 이미지와 비디오를 생성 및 배치하고 유기적으로 연결하여, 하나의 시퀀스로 완성해가는 웨이 포인트 작업 방식입니다. 이 기능은 마치 ComfyUI, Ideogram의 Canvas, Recraft, Supercraft, Florafauna 와 같은 캔버스 생성 프로세스를 연상 시킵니다. 앞으로 이렇게 직관적인 '콘텐츠 파이프 온 캔버스' 방식은 가장 중요한 작업 프로세스가 될 것 같습니다. 이미지와 비디오 생성과 편집 과정이 훨씬 더 편리해지겠습니다.
2024/12/03
  • mintbear
Fugatto : 오디오 혁신을 예고하는 NVIDIA 생성 AI
  1. AI Sound
  1. NVIDIA
NVIDIA가 텍스트와 오디오 프롬프트를 통해 음악, 음성, 독특한 소리를 생성하고 변환할 수 있는 새로운 생성 AI 모델 'Fugatto'를 공개했습니다. 1) 텍스트 설명을 바탕으로 음악을 생성하거나, 2)기존 음악에 악기를 추가/제거하고, 3) 억양과 감정을 변형하는 등 다양한 오디오 작업이 가능합니다.
2024/12/01
  • mintbear
대한민국AI국제영화제 대상 수상작, Mateo 온라인 상영회(이벤트 종료 / 다음 상영회를 기다려주세요)
  1. AI Video
  1. AI Films
11월 30일, 토요일 오후 2시.
AI 커뮤니티 GPTers 에서 영화 Mateo 마테오 온라인 상영회를 개최합니다.

첨부 링크에서 신청하셔요.
2024/11/30
  • mintbear
Leaked Sora Videos : 소라 API 유출 사건
  1. AI Video
  1. Sora
OpenAI의 비디오 생성 AI ’소라(Sora)’가 정식 출시 전, API가 잠시 유출되는 사건이 발생했습니다. 여러 유저들에 의해 테스트 되고 유출된 영상은 1080p 해상도의 10초 비디오들로, 시뮬레이션 퀄리티는 매우 높으나, 아직 Text-to-Video 컨트롤이 잘 되지는 않는 부분도 보였습니다. 그 이면에 숨은 이야기도 들어보셔요.
2024/11/27
  • mintbear
Leaked Sora Gallery
  1. AI Video
  1. Sora
유출된 소라 비디오 갤러리, 87개의 비디오와 프롬프트 전체
2024/11/27
  • mintbear
루마 Luma updates - with Image Tools
  1. AI Image
  2. AI Video
  3. Updates
  1. Luma
2024/11/25
  • mintbear
일반 유저를 위한 Flux.1 Tools 소개
  1. AI Image
  1. Flux
FLUX.1 Tools 는 Flux.1 사용자를 위한 Tools (: 편집 도구 모음)으로, 1 Fill, Depth, Canny, Redux 라는 네 가지 기능의 모듈로 공개 되었습니다. 이미 Stable Diffusion 에서 작동하던 기능이지만, 이제 고퀄리티 이미지의 Flux.1 를 더 다양하게 활용할 수 있게 되었네요.
2024/11/22
  • mintbear
© 2024.07 mintbear. All Rights Reserved.

Hunyuan Video by Tencent

Status
2024.12
Summary
2024년 12월 3일. 중국 텐센트(Tencent)는 강력한 오픈소스 비디오 생성 AI 모델, 훈위안 비디오(Hunyuan Video)를 공개했습니다.
Category
  1. Hunyuan
Tag
  1. AI Video
Dates
2024/12/07
Created by
  • mintbear
SP
https://slashpage.com/mintbear/Hunyuan-01-ref

Hunyuan Video

mintbear 2024.12.07
2024년 12월 3일. 중국 텐센트(Tencent)는 강력한 오픈소스 비디오 생성 AI 모델, 훈위안 비디오(Hunyuan Video)를 공개했습니다.
민트베어 🍀🧸

또 다른 중국 비디오 생성 AI : 훈위안

강력한 비디오 생성 AI 인 Kling과 Hailuo에 이어, 또 다른 중국의 강력한 경쟁자 Hunyuan 이 등장 했습니다. 압도적인 학습 데이터량 기반으로 흥미로운 결과물을 보여주고 있습니다.
기업과 개인에 공개된 오픈소스 비디오 생성 모델로, 가장 큰 매개변수를 통해 효율과 결과물이 압도적입니다. 설치 스펙이 필요해서 일반 로컬에서 가동하긴 어렵고, Replicate 등에서 사용해야 합니다. 생성 비디오는 1280*720p, 5초 생성 스펙입니다.

뛰어난 프롬프트 이해와 연출력

텍스트 프롬프트에 대한 이해도와 비디오 연출 수행 능력이 정말 강력합니다. 연출력이 좋은 이유는 텍스트와 비디오를 각각 구성하는 듀얼 스트림 방식 때문이라고 합니다.(별도 설명 예정)
키워드 : 고품질, 다이내믹, 연속되는 액션, 아티스틱 연출, 컨셉 구현, 물리적 법칙 수행
텍스트-투-비디오(T2V) 방식 외에도 이미지-투비디오(I2V)가 지원될 예정이며, 아바타 및 비디오 생성시 필요한 오디오를 생성(V2A)하는 등 다양한 기능도 포함하고 있습니다.

HunyuanVideo 기능 리스트

1.
텍스트-비디오 생성 (Text-to-Video, T2V)
2.
이미지-비디오 생성 (Image-to-Video, I2V) - 2025년 예정
3.
아바타 애니메이션 (Avatar Animation)
오디오 기반 애니메이션
포즈 기반 애니메이션
표정 기반 애니메이션
하이브리드 조건 애니메이션
4.
오디오 생성 (Video-to-Audio, V2A)

스펙 : 130억 매개변수 오픈소스 비디오 생성 모델, 720p * 5s

대규모 모델: 130억 개의 매개변수를 보유한 현재 가장 큰 오픈소스 텍스트-비디오 생성 모델로, 고급 스케일링 기술을 통해 계산 비용을 최대 80%까지 절감했습니다.
고품질 비디오 생성: 720p 해상도의 5초 길이 비디오를 생성할 수 있으며, 물리적 정확성과 장면 일관성이 뛰어난 “초현실적인” 비디오를 만들어냅니다.
혁신적인 기능: 비디오-오디오 합성 기능으로 생성된 비디오에 자동으로 동기화된 음향 효과와 배경 음악을 추가하며, 아바타 애니메이션 제어 기능을 통해 음성, 표정, 신체 동작 등 다양한 입력 방식으로 디지털 캐릭터를 조작할 수 있습니다.

성능

전문가 평가에 따르면 훈위안 비디오는 상용 모델들을 능가하는 성능을 보여주었습니다
1,500개 이상의 프롬프트에 대해 60명의 전문가가 평가한 결과, 모션 품질 점수에서 64.5%를 기록했습니다.
Runway Gen-3, Luma 1.6 등 경쟁 모델들보다 우수한 성능을 보였습니다.

활용

텐센트의 위안바오(Yuanbao) AI 챗봇 앱을 통해 중국어와 영어로 프롬프트를 입력하여 사용할 수 있습니다.
기업 및 개인 사용자 모두에게 무료로 제공됩니다.
GitHub를 통해 전체 시스템의 코드와 가중치가 공개되어 있어 연구 및 개발에 활용할 수 있습니다.

샘플 비디오

01. Text-to-Video

7 Prompt:In the gym, a woman in workout clothes runs on a treadmill. Side angle, realistic, indoor lighting, professional.
8 Prompt:Close-up, A little girl wearing a red hoodie in winter strikes a match. The sky is dark, there is a layer of snow on the ground, and it is still snowing lightly. The flame of the match flickers, illuminating the girl's face intermittently.
9 Prompt:Wide shot: A caravan of camels winds its way through the endless golden dunes, resembling a long snake slithering across the earth. The setting sun paints the desert in deep orange hues, while the sky transitions into a gradient of purples and reds. Close-up shot: The aged guide's wrinkled fingers pick up a handful of fine sand, letting it drift away with the wind. His headscarf flutters gently in the breeze, and his weathered face is bathed in the glow of the sunset, his eyes steady and wise. Cinematic detail portrayal.
10 Prompt:In the style of Dunhuang sculptures, A graceful deity, playing a pipa, dances lightly in a museum, with flowing garments.
11 Prompt:A person with a computer for a head is writing code in front of a computer, in a realistic style.

02. Image-to-Video

미공개. 2025년 예정.

03. Avatar Animation

03-1. OpenPose_Motion

03-2. OpenPose_Face

04. Video-to-Audio

04-1. Voice Control

1 Prompt : Advanced scene modeling.
2 Prompt : Natural background motion.
3 Prompt : Expressive and vivid facial expressions and gestures.

04-2. Video Dubbing

1 Prompt: Birds chirp and tweet.
2 Prompt: Water is rushing down a stream and pouring.
3 Prompt: A car engine revs.
4 Prompt: Footsteps on wood.

Hunyuan은 무슨 뜻인가

腾讯混元视频 (Téngxùn Hùnyuán Shìpín)
腾讯 (Téngxùn): Tencent 회사
混元 (Hùnyuán): “혼원”
1. origin of the universe
2. the world
1. 원초적이고 혼돈된 상태에서 질서와 창조가 나오는 것을 의미
2. 모든 것이 하나로 융합된 상태
3. 우주의 본원적 에너지나 근원을 뜻하는 철학적 개념
视频 (Shìpín): “비디오”
see more info
👍