यह शोधपत्र डेटा वितरण के दृष्टिकोण से चेन-ऑफ-थॉट (CoT) प्रॉम्प्टिंग के माध्यम से लार्ज लैंग्वेज मॉडल्स (LLMs) के प्रदर्शन सुधार का विश्लेषण करता है। हम जाँच करते हैं कि क्या CoT अनुमान प्रशिक्षण डेटा से सीखे गए संरचनात्मक आगमनात्मक पूर्वाग्रहों को दर्शाता है, जिससे सशर्त निर्माण संभव होता है जो प्रशिक्षण के दौरान देखे गए अनुमान पथों का अनुमान लगाता है। इसे प्राप्त करने के लिए, हम DataAlchemy डिज़ाइन करते हैं, एक नियंत्रित वातावरण जहाँ हम LLMs को शुरू से प्रशिक्षित करते हैं और विभिन्न वितरण स्थितियों की व्यवस्थित रूप से जाँच करते हैं। हम CoT अनुमान का विश्लेषण तीन आयामों में करते हैं: कार्य, लंबाई और प्रारूप। हमारे परिणाम बताते हैं कि CoT अनुमान एक नाजुक घटना है जो प्रशिक्षण वितरण के बाहर गायब हो जाती है, जो वास्तव में सामान्यीकृत अनुमान प्राप्त करने की कठिनाई को उजागर करती है।