Este artículo aborda el problema de la descomposición del estilo de contenido (CSD), que separa el contenido y el estilo de una sola imagen. A diferencia de los métodos de personalización basados en modelos de difusión existentes, en este artículo proponemos un método novedoso, CSD-VAR, que realiza CSD utilizando modelado autorregresivo visual (VAR). CSD-VAR introduce tres innovaciones clave para mejorar la separación de contenido y estilo aprovechando el proceso de generación dependiente del tamaño. Primero, usamos una estrategia de optimización cruzada con conocimiento del tamaño para alinear las representaciones de contenido y estilo a sus respectivos tamaños. Segundo, mitigamos la fuga de contenido en las representaciones de estilo usando un método de corrección basado en SVD. Tercero, mejoramos la preservación de la identidad del contenido usando una memoria clave-valor (KV) aumentada. Además, presentamos un nuevo conjunto de datos de referencia, CSD-100, para tareas de CSD. Los resultados experimentales muestran que CSD-VAR logra una mejor preservación del contenido y fidelidad del estilo que los métodos existentes.