/
/
画像、動画の生成を理解する
Share
Sign In
画像、動画の生成を理解する
Diffusionという単語自体が拡散(パトリム)であることを私たちは知る必要があります。
当然ながら、(?)画像や動画の生成は、テキストの生成よりも高価です。正確には、使用されるトークンの数が多いです。トークンの概念を単語や綴りの部分として理解したら、もっと色々なので実際にはわかりません。おおよその理由はこうです。
•
データの複雑さとサイズ:画像とビデオには、テキストよりもはるかに多くのデータが含まれています。例えば、1つの画像は数千、数万の画素から構成され、各画素は色及び輝度に関する情報を含む。ビデオは、これらの画像が時間とともに連続して続く形式です。一方、テキストは文字からなるはるかに単純な構造を持っています。
•
処理時間とコスト: 画像とビデオを作成して修正するには、多くの計算が必要です。これは高性能のコンピュータリソースを必要とし、それによってコストが増加します。テキスト生成は比較的簡単な計算で行われるため、より少ないコンピューティングリソースでも可能です。
•
学習過程の複雑さ:画像とビデオ生成モデルは、さまざまな形態とパターンを認識して理解する必要があります。これはテキストよりはるかに複雑な学習プロセスを必要とします。テキスト生成は主に言語の規則と構造を学習することに焦点を当てており、これは視覚データと比較して比較的簡単です。
さらに理由がありますが、コアはイメージ生成はコンピューティングパワー(性能)に乗るしかありません。そのため、中小規模の言語モデルが古いコンピュータでもある程度よく戻ってきますが、画像生成の場合は高価でクラウドで処理してくれたり(AIイメージプロファイル)、高性能の演算処理器(GPU)がないとスムーズに使用することは困難です。
原理についてもっと知りたい方は、下の映像やCNN、GANsなどのキーワードで勉強をしてみることもおすすめです。
ⓒ 2023. Haebom, all rights reserved.
ソースを表示し、著作権者の許可の下で営利目的で使用することができます。
Made with Slashpage