/
/
画像や動画の生成を理解する
Sign In
画像や動画の生成を理解する
Diffusionという言葉自体が「拡散(広がり)」を意味することを私たちは知っておくべきです。
もちろん(?)、画像や動画の生成はテキスト生成よりコストが高くなります。具体的には使われるトークン数が多いんです。トークンを単語や文字の区切りと理解するとかえって混乱するかもしれないので、正直よくわからなくても大丈夫です。ざっくり理由を挙げるとこんな感じです。
•
データの複雑さとサイズ:画像や動画はテキストよりもずっと多くのデータ量を持っています。例えば画像一枚でも数千、数万ものピクセルでできていて、一つ一つのピクセルに色や明るさの情報が含まれています。動画はこうした画像が時間軸に沿って連続する形です。一方、テキストは文字だけでできたはるかにシンプルな構造です。
•
処理時間とコスト:画像や動画の生成や編集には膨大な計算が必要で、高性能なコンピュータ資源も求められるためコストがかかります。テキスト生成なら比較的単純な計算だけで済むので、少ないコンピュータリソースで対応可能です。
•
学習過程の複雑さ:画像や動画を生成するモデルは色々な形やパターンを認識し理解しないといけません。これはテキストと比べると、ずっと複雑な学習プロセスが求められるということです。テキスト生成の場合は、主に言語のルールや構造を学ぶことに集中できて、視覚データほどは難しくありません。
他にも理由はありますが、要は画像生成はコンピュータのパワー(性能)がどうしても必要になります。だから中小規模の言語モデルなら古いパソコンでもそれなりに動くのに、画像生成となると高価なクラウドサービスを利用する必要があったり(AI画像プロフ)、高性能な演算用GPUがないと快適に使えません。
仕組みにもっと興味がある方は、下の動画や「CNN」「GANs」などのキーワードで勉強してみるのもおすすめです。
ⓒ 2023. Haebom, all rights reserved.
出典を明記し、著作権者の許可がある場合は営利目的で利用できます。
Made with Slashpage