नए AI मॉडल उत्तर देने से पहले चरण-दर-चरण अनुमान पाठ तैयार करते हैं। यह पाठ मॉडल की गणना प्रक्रिया को प्रकट करता प्रतीत होता है और पारदर्शिता एवं व्याख्यात्मकता के लिए इसका उपयोग तेज़ी से बढ़ रहा है। हालाँकि, यह स्पष्ट नहीं है कि मनुष्य जिस तरह से इस पाठ की व्याख्या करते हैं, वह मॉडल की वास्तविक गणना प्रक्रिया से मेल खाता है या नहीं। यह शोधपत्र इस प्रतिक्रिया के लिए एक आवश्यक शर्त की जाँच करता है: मनुष्यों की यह समझने की क्षमता कि अनुमान पाठ के कौन से चरण बाद के चरणों को कारणात्मक रूप से प्रभावित करते हैं। हमने प्रति-तथ्यात्मक मापों पर आधारित प्रश्न तैयार करके मानव प्रदर्शन का आकलन किया और महत्वपूर्ण अंतर पाए। प्रतिभागियों की सटीकता केवल 29% थी, जो संयोग (25%) से थोड़ी अधिक थी, और उच्च सहमति वाले प्रश्नों पर बहुमत के मतों का आकलन करने पर भी, सटीकता केवल 42% थी। ये परिणाम मनुष्यों द्वारा अनुमान पाठ की व्याख्या और मॉडलों द्वारा उसके उपयोग के बीच एक मूलभूत अंतर को प्रकट करते हैं, जिससे एक सरल व्याख्यात्मक उपकरण के रूप में इसकी उपयोगिता पर प्रश्न उठते हैं। हमारा तर्क है कि अनुमान पाठ को हल्के में नहीं लिया जाना चाहिए, बल्कि उसे एक शोध-योग्य कलाकृति के रूप में माना जाना चाहिए, और यह समझना कि ये मॉडल भाषा का किस अमानवीय तरीके से उपयोग करते हैं, एक महत्वपूर्ण शोध दिशा है।