इस पत्र में, हम CodeAssistBench (CAB) प्रस्तुत करते हैं, जो मौजूदा कोड-जनरेशन-केंद्रित बेंचमार्क की सीमाओं को पार करने हेतु वास्तविक कोडबेस का उपयोग करके बहु-राउंड प्रोग्रामिंग समर्थन के मूल्यांकन हेतु एक नवीन बेंचमार्क ढाँचा है। CAB, GitHub समस्या डेटा का उपयोग करके एक स्वचालित रूप से स्केलेबल डेटासेट तैयार करता है और कंटेनरीकृत कोडबेस परिवेशों में मॉडलों का मूल्यांकन करता है। हम 231 रिपॉजिटरी, 7 प्रोग्रामिंग भाषाओं और 3,286 वास्तविक प्रोग्रामिंग प्रश्नों वाले एक परीक्षण सेट पर अग्रणी बड़े पैमाने के भाषा मॉडल (LLM) का मूल्यांकन करते हैं। हमने पाया कि जटिल परियोजना परिवेशों में उनका प्रदर्शन एकल-प्रश्न उत्तर देने की तुलना में काफ़ी कम है (CAB प्रश्नों के लिए 16.49% तक, जबकि स्टैक ओवरफ़्लो प्रश्नों के लिए 70-83%)। यह सरल प्रश्न उत्तर देने और जटिल, परियोजना-विशिष्ट स्थितियों में समर्थन प्रदान करने के बीच एक महत्वपूर्ण प्रदर्शन अंतर को दर्शाता है।