यह शोधपत्र उन मौजूदा तरीकों की सीमाओं पर प्रकाश डालता है जो बड़े पैमाने के भाषा मॉडल (LLM) के सुदृढीकरण अधिगम-आधारित प्रशिक्षणोत्तर में एक ही GPU क्लस्टर पर अनुमान और नीति अनुकूलन करते हैं। यह दृष्टिकोण एकल कार्यक्रम, बहुल डेटा (SPMD) की धारणा का उल्लंघन करता है और इस प्रकार दक्षता में बाधा डालता है। इसलिए, हम इको नामक एक सुदृढीकरण अधिगम प्रणाली का प्रस्ताव करते हैं, जो अनुमान और प्रशिक्षण को विषम "अनुमान" और "प्रशिक्षण" समूहों में विभाजित करके सांख्यिकीय दक्षता बनाए रखती है। इको दो हल्के सिंक्रनाइज़ेशन प्रोटोकॉल प्रस्तुत करता है: एक अनुक्रमिक पुल मोड, जो पूर्वाग्रह को कम करने के लिए API कॉल के आधार पर नीति भार को अद्यतन करता है, और एक अतुल्यकालिक पुश-पुल मोड, जो हार्डवेयर उपयोग को अधिकतम करने के लिए रीप्ले बफर के माध्यम से संस्करण-टैग किए गए रोलआउट को स्ट्रीम करता है। Qwen3-4B, Qwen2.5-7B, और Qwen3-32B का उपयोग करके भौगोलिक रूप से वितरित क्लस्टरों पर तीन प्रतिनिधि सुदृढीकरण अधिगम कार्यों का प्रशिक्षण यह दर्शाता है कि इको अभिसरण गति और अंतिम पुरस्कार प्रदर्शन को पूरी तरह से सह-स्थित Verl बेसलाइन के बराबर प्राप्त करता है, जबकि अनुमान कार्यों को सामान्य एज हार्डवेयर पर स्थानांतरित करता है। ये परिणाम दर्शाते हैं कि बड़े पैमाने पर एलएलएम सुदृढीकरण सीखने से वितरित, विषम संसाधनों का उपयोग करके डेटासेंटर-स्तर का प्रदर्शन प्राप्त किया जा सकता है।