Comprender la generación de imágenes y videos

Diffusion이라는 단어 자체가 확산(퍼트림)이라는 것을 우린 알아야 합니다.

Por supuesto (?), generar imágenes o videos cuesta más que generar texto. Específicamente, se utilizan más tokens. Si entiendes el concepto de token como la segmentación de palabras o letras, puede parecer aún más complicado, así que realmente no es necesario comprenderlo del todo. Las razones aproximadas son las siguientes.

•

Complejidad y tamaño de los datos: las imágenes y los videos contienen mucha más información que el texto. Por ejemplo, una sola imagen puede estar conformada por miles o decenas de miles de píxeles, y cada píxel contiene datos del color y el brillo. Un video es una secuencia de estas imágenes a lo largo del tiempo. En contraste, el texto tiene una estructura mucho más simple, formada solo por letras.

•

Tiempo y costo de procesamiento: generar y modificar imágenes y videos requiere muchos cálculos. Esto hace que se necesiten recursos informáticos de alto rendimiento, lo que incrementa los costos. En cambio, la generación de texto requiere procesos computacionales más simples, y por eso puede realizarse con menos recursos.

•

Complejidad del proceso de aprendizaje: los modelos que generan imágenes y videos tienen que reconocer e interpretar diversos patrones y formas, lo que implica un proceso de aprendizaje mucho más complejo que el del texto. La generación de texto se concentra principalmente en aprender las reglas y la estructura del lenguaje, lo cual es relativamente más sencillo en comparación con los datos visuales.

Hay más motivos, pero en resumen, la generación de imágenes depende mucho de la potencia computacional (rendimiento). Por eso, mientras que los modelos de lenguaje pequeños o medianos pueden funcionar razonablemente bien incluso en computadoras más antiguas, en el caso de la generación de imágenes resulta difícil utilizarlas de forma fluida a menos que se procese en la nube pagando un alto costo (por ejemplo, perfiles de imagen con IA) o se disponga de un procesador potente (GPU).

Si tienes interés en conocer más sobre los principios, te recomiendo ver el video de abajo o buscar términos como CNN, GANs, etc.

Generative Adversarial Networks (GANs) and Stable Diffusion

Stable Diffusion is a text-to-image model that allows many people to create amazing art within seconds. Using Keras, you can enter a short text description into the Stable Diffusion models available to generate such an image. Learn how to generate your own custom images with a few lines of Python code. Speaker: Shilpa Kancharla Watch more: Watch all the Women in ML Symposium 2022 Sessions → https://goo.gle/WiML22-all Subscribe to the TensorFlow channel → https://goo.gle/TensorFlow #WIMLsymposium

youtube.com

Puede utilizarse con fines comerciales con el permiso del titular de los derechos de autor y con la debida atribución.

Made with Slashpage