Sign In
🐎

Comprender la generación de imágenes y videos

Tenemos que saber que la palabra 'diffusion' en sí misma significa difusión (propagación).
Por supuesto (?), generar imágenes o videos cuesta más que generar texto. Específicamente, se utilizan más tokens. Si entiendes el concepto de token como la segmentación de palabras o letras, puede parecer aún más complicado, así que realmente no es necesario comprenderlo del todo. Las razones aproximadas son las siguientes.
Complejidad y tamaño de los datos: las imágenes y los videos contienen mucha más información que el texto. Por ejemplo, una sola imagen puede estar conformada por miles o decenas de miles de píxeles, y cada píxel contiene datos del color y el brillo. Un video es una secuencia de estas imágenes a lo largo del tiempo. En contraste, el texto tiene una estructura mucho más simple, formada solo por letras.
Tiempo y costo de procesamiento: generar y modificar imágenes y videos requiere muchos cálculos. Esto hace que se necesiten recursos informáticos de alto rendimiento, lo que incrementa los costos. En cambio, la generación de texto requiere procesos computacionales más simples, y por eso puede realizarse con menos recursos.
Complejidad del proceso de aprendizaje: los modelos que generan imágenes y videos tienen que reconocer e interpretar diversos patrones y formas, lo que implica un proceso de aprendizaje mucho más complejo que el del texto. La generación de texto se concentra principalmente en aprender las reglas y la estructura del lenguaje, lo cual es relativamente más sencillo en comparación con los datos visuales.
Hay más motivos, pero en resumen, la generación de imágenes depende mucho de la potencia computacional (rendimiento). Por eso, mientras que los modelos de lenguaje pequeños o medianos pueden funcionar razonablemente bien incluso en computadoras más antiguas, en el caso de la generación de imágenes resulta difícil utilizarlas de forma fluida a menos que se procese en la nube pagando un alto costo (por ejemplo, perfiles de imagen con IA) o se disponga de un procesador potente (GPU).
Si tienes interés en conocer más sobre los principios, te recomiendo ver el video de abajo o buscar términos como CNN, GANs, etc.
📇
🥷
ⓒ 2023. Haebom, todos los derechos reservados.
Debe indicarse la fuente y puede usarse con fines comerciales con la autorización del titular de los derechos de autor.
👍