AI Visual News

민트베어가 전하는 AI 이미지 & AI 비디오 뉴스와 정보. 놓치면 안되는 소식만. 민트베어의 인사이트로. 쉽고, 유용하게.
AI Films
© 2024.07 mintbear. All Rights Reserved.

Hunyuan Video by Tencent

2024년 12월 3일. 중국 텐센트(Tencent)는 강력한 오픈소스 비디오 생성 AI 모델, 훈위안 비디오(Hunyuan Video)를 공개했습니다.
  1. Hunyuan
  1. AI Video
Created by
  • mintbear

Hunyuan Video

mintbear 2024.12.07
2024년 12월 3일. 중국 텐센트(Tencent)는 강력한 오픈소스 비디오 생성 AI 모델, 훈위안 비디오(Hunyuan Video)를 공개했습니다.
민트베어 🍀🧸

또 다른 중국 비디오 생성 AI : 훈위안

강력한 비디오 생성 AI 인 Kling과 Hailuo에 이어, 또 다른 중국의 강력한 경쟁자 Hunyuan 이 등장 했습니다. 압도적인 학습 데이터량 기반으로 흥미로운 결과물을 보여주고 있습니다.
기업과 개인에 공개된 오픈소스 비디오 생성 모델로, 가장 큰 매개변수를 통해 효율과 결과물이 압도적입니다. 설치 스펙이 필요해서 일반 로컬에서 가동하긴 어렵고, Replicate 등에서 사용해야 합니다. 생성 비디오는 1280*720p, 5초 생성 스펙입니다.

뛰어난 프롬프트 이해와 연출력

텍스트 프롬프트에 대한 이해도와 비디오 연출 수행 능력이 정말 강력합니다. 연출력이 좋은 이유는 텍스트와 비디오를 각각 구성하는 듀얼 스트림 방식 때문이라고 합니다.(별도 설명 예정)
키워드 : 고품질, 다이내믹, 연속되는 액션, 아티스틱 연출, 컨셉 구현, 물리적 법칙 수행
텍스트-투-비디오(T2V) 방식 외에도 이미지-투비디오(I2V)가 지원될 예정이며, 아바타 및 비디오 생성시 필요한 오디오를 생성(V2A)하는 등 다양한 기능도 포함하고 있습니다.

HunyuanVideo 기능 리스트

텍스트-비디오 생성 (Text-to-Video, T2V)
이미지-비디오 생성 (Image-to-Video, I2V) - 2025년 예정
아바타 애니메이션 (Avatar Animation)
오디오 기반 애니메이션
포즈 기반 애니메이션
표정 기반 애니메이션
하이브리드 조건 애니메이션
오디오 생성 (Video-to-Audio, V2A)

스펙 : 130억 매개변수 오픈소스 비디오 생성 모델, 720p * 5s

대규모 모델: 130억 개의 매개변수를 보유한 현재 가장 큰 오픈소스 텍스트-비디오 생성 모델로, 고급 스케일링 기술을 통해 계산 비용을 최대 80%까지 절감했습니다.
고품질 비디오 생성: 720p 해상도의 5초 길이 비디오를 생성할 수 있으며, 물리적 정확성과 장면 일관성이 뛰어난 “초현실적인” 비디오를 만들어냅니다.
혁신적인 기능: 비디오-오디오 합성 기능으로 생성된 비디오에 자동으로 동기화된 음향 효과와 배경 음악을 추가하며, 아바타 애니메이션 제어 기능을 통해 음성, 표정, 신체 동작 등 다양한 입력 방식으로 디지털 캐릭터를 조작할 수 있습니다.


전문가 평가에 따르면 훈위안 비디오는 상용 모델들을 능가하는 성능을 보여주었습니다
1,500개 이상의 프롬프트에 대해 60명의 전문가가 평가한 결과, 모션 품질 점수에서 64.5%를 기록했습니다.
Runway Gen-3, Luma 1.6 등 경쟁 모델들보다 우수한 성능을 보였습니다.


텐센트의 위안바오(Yuanbao) AI 챗봇 앱을 통해 중국어와 영어로 프롬프트를 입력하여 사용할 수 있습니다.
기업 및 개인 사용자 모두에게 무료로 제공됩니다.
GitHub를 통해 전체 시스템의 코드와 가중치가 공개되어 있어 연구 및 개발에 활용할 수 있습니다.

샘플 비디오

01. Text-to-Video

7 Prompt:In the gym, a woman in workout clothes runs on a treadmill. Side angle, realistic, indoor lighting, professional.
8 Prompt:Close-up, A little girl wearing a red hoodie in winter strikes a match. The sky is dark, there is a layer of snow on the ground, and it is still snowing lightly. The flame of the match flickers, illuminating the girl's face intermittently.
9 Prompt:Wide shot: A caravan of camels winds its way through the endless golden dunes, resembling a long snake slithering across the earth. The setting sun paints the desert in deep orange hues, while the sky transitions into a gradient of purples and reds. Close-up shot: The aged guide's wrinkled fingers pick up a handful of fine sand, letting it drift away with the wind. His headscarf flutters gently in the breeze, and his weathered face is bathed in the glow of the sunset, his eyes steady and wise. Cinematic detail portrayal.
10 Prompt:In the style of Dunhuang sculptures, A graceful deity, playing a pipa, dances lightly in a museum, with flowing garments.
11 Prompt:A person with a computer for a head is writing code in front of a computer, in a realistic style.

02. Image-to-Video

미공개. 2025년 예정.

03. Avatar Animation

03-1. OpenPose_Motion

03-2. OpenPose_Face

04. Video-to-Audio

04-1. Voice Control

1 Prompt : Advanced scene modeling.
2 Prompt : Natural background motion.
3 Prompt : Expressive and vivid facial expressions and gestures.

04-2. Video Dubbing

1 Prompt: Birds chirp and tweet.
2 Prompt: Water is rushing down a stream and pouring.
3 Prompt: A car engine revs.
4 Prompt: Footsteps on wood.

Hunyuan은 무슨 뜻인가

腾讯混元视频 (Téngxùn Hùnyuán Shìpín)
腾讯 (Téngxùn): Tencent 회사
混元 (Hùnyuán): “혼원”
1. origin of the universe
2. the world
1. 원초적이고 혼돈된 상태에서 질서와 창조가 나오는 것을 의미
2. 모든 것이 하나로 융합된 상태
3. 우주의 본원적 에너지나 근원을 뜻하는 철학적 개념
视频 (Shìpín): “비디오”
see more info