Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Este artículo presenta la mejora del rendimiento mediante la aplicación de la inferencia de Cadena de Pensamiento (CoT) a la generación de imágenes autorregresivas. Nos centramos en tres técnicas: la extensión del cálculo del tiempo de prueba para la verificación, la alineación de las preferencias del modelo mediante la Optimización de Preferencias Directas (OPD) y una combinación complementaria de estas dos técnicas. En particular, proponemos el Modelo de Recompensa por Evaluación Potencial (PARM) y PARM++, especializados en la generación de imágenes autorregresivas. PARM evalúa cada paso de la generación mediante un enfoque de evaluación potencial y combina las ventajas de los modelos de recompensa existentes, mientras que PARM++ introduce además un mecanismo de autocorrección para corregir imágenes deficientes. Al aplicar los métodos propuestos basados en el modelo Show-o, logramos una mejora del rendimiento del 24 % en el benchmark GenEval, superando a Stable Diffusion 3 en un 15 %.
Takeaways, Limitations
•
Takeaways:
◦
Aplicamos con éxito la inferencia CoT a la generación de imágenes autorregresivas, demostrando un rendimiento mejorado.
◦
Mejorar la calidad de generación de imágenes proponiendo nuevos modelos de recompensa como PARM y PARM++.
◦
Presentamos un método eficaz para combinar estrategias de inferencia de CoT con extensión de cálculo de tiempo de prueba y DPO.
◦
Lograr el rendimiento SOTA en el benchmark GenEval.
•
Limitations:
◦
Se necesitan más estudios para investigar la generalidad del método propuesto y su aplicabilidad a otros modelos de generación de imágenes.
◦
Necesidad de analizar el costo computacional y la complejidad de los modelos PARM y PARM++.
◦
Se necesita una validación adicional para determinar si las mejoras de rendimiento para puntos de referencia específicos se pueden generalizar a otros puntos de referencia.