Share
Sign In
🐎

이미지, 동영상 생성 이해하기

Diffusion이라는 단어 자체가 확산(퍼트림)이라는 것을 우린 알아야 합니다.
당연하게도(?) 이미지나 동영상 생성은 텍스트 생성보다 비용이 비쌉니다. 정확히는 사용되는 토큰의 수가 많습니다. 토큰의 개념을 단어 혹은 철자의 분절로 이해하셨다면 더 여러울테니 사실 몰라도 됩니다. 대략적 이유는 이렇습니다.
데이터의 복잡성과 크기 : 이미지와 비디오는 텍스트보다 훨씬 더 많은 데이터를 담고 있습니다. 예를 들어, 하나의 이미지는 수천, 수만 개의 픽셀로 구성되어 있으며, 각 픽셀에는 색상과 밝기에 대한 정보가 포함되어 있습니다. 비디오는 이런 이미지들이 시간에 따라 연속적으로 이어진 형태입니다. 반면, 텍스트는 문자로 이루어진 훨씬 더 간단한 구조를 가지고 있습니다.
처리 시간과 비용 : 이미지와 비디오를 생성하고 수정하는 데는 많은 계산이 필요합니다. 이는 고성능의 컴퓨터 자원을 필요로 하며, 이에 따라 비용이 증가합니다. 텍스트 생성은 상대적으로 간단한 계산으로 이루어지기 때문에, 더 적은 컴퓨팅 자원으로도 가능합니다.
학습과정의 복잡성 : 이미지와 비디오 생성 모델은 다양한 형태와 패턴을 인식하고 이해해야 합니다. 이는 텍스트보다 훨씬 복잡한 학습 과정을 필요로 합니다. 텍스트 생성은 주로 언어의 규칙과 구조를 학습하는 것에 집중되며, 이는 시각적 데이터에 비해 상대적으로 간단합니다.
더 이유가 있지만 핵심은 이미지 생성은 컴퓨팅 파워(성능)을 탈 수 밖에 없습니다. 따라서 중소규모 언어모델이 오래된 컴퓨터에서도 어느 정도 잘 돌아가는 반면 이미지 생성의 경우 비싼 비용을 받고 클라우드에서 처리해주거나(AI 이미지 프로필) 고성능의 연산처리기(GPU)가 있지 않으면 원활하게 사용하기 어렵습니다.
원리에 대해 더 알고 싶으신 분은 아래의 영상이나 CNN, GANs 등의 키워드로 공부를 해보시는 것도 추천합니다.
ⓒ 2023. Haebom, all rights reserved.
출처 표시를 하고, 저작권자 허락 하에 영리적 목적으로 쓰일 수 있습니다.
👍