Este artículo destaca la dificultad de popularizar el modelado de programación con restricciones (CP) debido a su exigente experiencia. Para abordar esta dificultad, presentamos un estudio sobre la automatización del modelado de CP mediante modelos de lenguaje a gran escala (LLM). Para abordar la limitación de los conjuntos de datos de evaluación inherentes a los estudios existentes, presentamos CP-Bench, un nuevo punto de referencia que abarca diversos problemas de optimización combinatoria. Utilizando CP-Bench, comparamos y evaluamos el rendimiento de modelado de los LLM para tres sistemas de modelado de CP con diferentes niveles de abstracción y sintaxis. Evaluamos sistemáticamente métodos de cálculo basados en indicaciones y en tiempo de inferencia, alcanzando una precisión de hasta el 70 %. En particular, demostramos que el uso de un marco de alto nivel basado en Python ofrece un mayor rendimiento.