यह शोधपत्र बड़े पैमाने पर भाषा मॉडल (एलएलएम) के दुरुपयोग और गलत संरेखण के जोखिम को कम करने के लिए एलएलएम आउटपुट की निगरानी के महत्व पर जोर देता है, और स्टेग्नोग्राफ़ी के माध्यम से निगरानी से बचने के लिए एलएलएम की क्षमता का मूल्यांकन करता है। हम अत्याधुनिक एलएलएम की स्टेग्नोग्राफ़िक क्षमताओं का मूल्यांकन करते हैं, जिसमें दो प्रकार की स्टेग्नोग्राफ़ी पर ध्यान केंद्रित किया जाता है: एन्क्रिप्टेड संदेश पासिंग और एन्क्रिप्टेड रीजनिंग। हम पाते हैं कि आउटपुट में छोटे संदेशों को एन्क्रिप्ट करने के मानक तरीके निगरानी से बचने के लिए पर्याप्त नहीं हैं, लेकिन दिखाते हैं कि अतिरिक्त तरीके दिए जाने पर वे सफल हो सकते हैं, जैसे कि बिना निगरानी वाले स्क्रैचपैड का उपयोग और एन्कोडिंग स्कीम की प्री-ट्यूनिंग। हम सरल स्टेट-ट्रैकिंग समस्याओं में बुनियादी एन्क्रिप्टेड रीजनिंग के शुरुआती संकेत भी पाते हैं, जिसमें हेक्साडेसिमल जैसी स्व-और पूर्वनिर्धारित योजनाओं सहित एन्कोडिंग योजनाओं का उपयोग करके तर्क करने की क्षमता शामिल है। हालांकि, मॉनिटर को बेवकूफ बनाने के लिए तर्क को गुप्त रूप से छिपाना लगभग असंभव है। कुल मिलाकर, वर्तमान एलएलएम स्टेग्नोग्राफ़िक क्षमताओं के प्रारंभिक चरण का प्रतिनिधित्व करते हैं, जो वर्तमान में अच्छी तरह से डिज़ाइन किए गए मॉनिटरों को बायपास करने के लिए अपर्याप्त हैं, लेकिन भविष्य में यह बदल सकता है।