En este artículo, presentamos CodeAssistBench (CAB), un novedoso marco de referencia para evaluar el soporte de programación multironda utilizando bases de código reales y superar las limitaciones de las referencias existentes centradas en la generación de código. CAB genera un conjunto de datos escalable automáticamente a partir de datos de incidencias de GitHub y evalúa modelos en entornos de bases de código contenedorizadas. Evaluamos los principales modelos de lenguaje a gran escala (LLM) en un conjunto de pruebas compuesto por 231 repositorios, 7 lenguajes de programación y 3286 preguntas de programación reales. Observamos que su rendimiento en entornos de proyectos complejos es significativamente inferior al de las preguntas individuales (hasta un 16,49 % para las preguntas de CAB, en comparación con el 70-83 % para las preguntas de Stack Overflow). Esto demuestra una importante diferencia de rendimiento entre la respuesta a preguntas simples y la prestación de soporte en situaciones complejas y específicas del proyecto.