यह शोधपत्र SCIZOR, एक स्व-पर्यवेक्षित अधिगम-आधारित डेटा क्लीनिंग ढाँचा, प्रस्तावित करता है जो अनुकरण अधिगम में बड़े पैमाने के डेटासेट की खराब गुणवत्ता की समस्या का समाधान करता है, जो रोबोटों को विविध व्यवहार करने के लिए प्रशिक्षित करता है। SCIZOR खराब डेटा गुणवत्ता के दो स्रोतों को संबोधित करता है: उप-इष्टतम डेटा (कार्य प्रगति का अभाव) और अनावश्यक पैटर्न। उप-इष्टतम डेटा को एक स्व-पर्यवेक्षित अधिगम-आधारित कार्य प्रगति पूर्वसूचक का उपयोग करके हटाया जाता है, और अनावश्यक डेटा को संयुक्त अवस्था-क्रिया निरूपण के लिए एक डीडुप्लीकेशन मॉड्यूल का उपयोग करके हटाया जाता है। प्रायोगिक परिणाम दर्शाते हैं कि SCIZOR सीमित डेटा के साथ भी उच्च-प्रदर्शन अनुकरण अधिगम नीतियाँ प्राप्त करता है, जिससे विभिन्न बेंचमार्क पर 15.4% का औसत प्रदर्शन सुधार प्राप्त होता है।