Sign In
🐎

了解图片与视频生成

我们要知道,Diffusion 这个词本身就是扩散(传播)的意思。
理所当然(?),生成图像或视频的成本比生成文本高。准确来说,是因为用到的令牌数量很多。如果你把令牌的概念理解为单词或字母的切分,就会更加复杂,其实不用太在意。大致原因如下。
数据的复杂性和体量:图像和视频承载的数据量远远超过文本。比如,一张图片由成千上万个像素组成,每个像素都包含颜色和亮度的信息。视频则是这些图片在时间轴上的连续排列。相比之下,文本的结构要简单得多,只是由字符组成而已。
处理时间和成本:生成和编辑图像、视频需要大量计算,这就要求高性能计算资源,因此成本自然升高。相对而言,文本生成对计算的要求简单得多,用较少的计算资源也能搞定。
学习过程的复杂性:图像和视频生成模型需要识别和理解各种形态和模式,学习过程比文本复杂得多。文本生成主要着重于学习语言的规则和结构,和视觉数据相比,这相对简单许多。
还有其他原因,但核心在于图像生成离不开强算力(性能)。所以中小型的语言模型一般在老电脑上也能正常跑,而图像生成则要么需要在云端高价处理(AI图像头像),要么就得配备高性能运算处理器(GPU),否则很难流畅使用。
如果你还想进一步了解原理,推荐你看看下面的视频,或者搜寻 CNN、GAN 等关键词来学习。
📇
🥷
ⓒ 2023. Haebom,保留所有权利。
经版权所有者许可,可以将其用于商业目的,但需注明来源。
👍