Dans cet article, nous présentons CodeAssistBench (CAB), un nouveau framework de benchmark permettant d'évaluer le support de la programmation multi-tours à l'aide de bases de code réelles, afin de surmonter les limites des benchmarks existants centrés sur la génération de code. CAB génère un ensemble de données automatiquement évolutif à partir des données de problèmes GitHub et évalue les modèles dans des environnements de base de code conteneurisés. Nous évaluons les principaux modèles de langage à grande échelle (LLM) sur un ensemble de tests composé de 231 référentiels, 7 langages de programmation et 3 286 questions de programmation réelles. Nous constatons que leurs performances dans des environnements de projets complexes sont nettement inférieures à celles des réponses à une seule question (jusqu'à 16,49 % pour les questions CAB, contre 70 à 83 % pour les questions Stack Overflow). Cela démontre un écart de performance significatif entre les réponses à des questions simples et l'assistance dans des situations complexes, spécifiques à un projet.