यह पेपर असंरचित वास्तविक दुनिया के वातावरण में विज़न-लैंग्वेज-एक्शन (VLA) मॉडल की मजबूती को बेहतर बनाने के लिए एक टेस्ट-टाइम स्केलिंग तकनीक प्रस्तुत करता है। हम अध्ययन करते हैं कि सैंपलिंग और वैलिडेशन के माध्यम से VLA की मजबूती और सामान्यीकरण प्रदर्शन को कैसे बेहतर बनाया जाए, और दिखाते हैं कि एक्शन त्रुटि और उत्पन्न नमूनों की संख्या के बीच संबंध एक घातीय शक्ति कानून का पालन करता है। इसके आधार पर, हम VLA के लिए एक टेस्ट-टाइम स्केलिंग फ्रेमवर्क, रोबोमंकी का प्रस्ताव करते हैं। रोबोमंकी VLA से कई एक्शन सैंपल जेनरेट करता है, गॉसियन नॉइज़ जोड़ता है, बहुमत वोटिंग के माध्यम से एक एक्शन प्रस्ताव वितरण जेनरेट करता है, और फिर VLM-आधारित सत्यापनकर्ता का उपयोग करके इष्टतम एक्शन का चयन करता है। हम एक सिंथेटिक डेटा जेनरेशन पाइपलाइन के माध्यम से एक VLM-आधारित एक्शन सत्यापनकर्ता को प्रशिक्षित करते हैं, और सिमुलेशन और हार्डवेयर प्रयोगों के माध्यम से रोबोमंकी का उपयोग करके VLA के प्रदर्शन में सुधार का प्रदर्शन करते हैं। प्रायोगिक परिणामों से पता चलता है कि वितरण-बाह्य कार्यों में 25% तथा वितरण-बाह्य कार्यों में 9% का पूर्ण प्रदर्शन सुधार हुआ है, तथा यह भी पता चलता है कि VLA तथा एक्शन वेरिफायर को एक साथ फाइन-ट्यूनिंग करने से, नई रोबोट सेटिंग के अनुकूल होने पर, केवल VLA को फाइन-ट्यूनिंग करने की तुलना में, प्रदर्शन में 7% का सुधार हुआ है।