यह शोधपत्र "नीति मानचित्र" प्रस्तुत करता है, जो बड़े पैमाने के भाषा मॉडलों (एलएलएम) के विशाल व्यवहारिक क्षेत्र में नीतियों को प्रभावी ढंग से डिज़ाइन करने का एक नया तरीका है। भौतिक मानचित्रण से प्रेरित, यह विधि सभी व्यवहारों को समाहित करने के बजाय, किन पहलुओं को समाहित करना है और किन पहलुओं को अमूर्त करना है, इस बारे में जानबूझकर डिज़ाइन विकल्पों के माध्यम से प्रभावी अन्वेषण की सुविधा प्रदान करती है। "नीति प्रोजेक्टर", एक इंटरैक्टिव उपकरण, उपयोगकर्ताओं को एलएलएम इनपुट-आउटपुट युग्मों के परिदृश्य का अन्वेषण करने, उपयोगकर्ता-परिभाषित क्षेत्रों (जैसे, "हिंसा") को परिभाषित करने, और सशर्त नीति नियमों का उपयोग करके इन क्षेत्रों का अन्वेषण करने की अनुमति देता है जिन्हें एलएलएम आउटपुट पर लागू किया जा सकता है (जैसे, यदि आउटपुट में "हिंसा" और "ग्राफ़िकल विवरण" शामिल हैं, तो "ग्राफ़िकल विवरण" के बिना पुनर्लेखन करें)। यह एलएलएम वर्गीकरण और संचालन क्षमताओं और मानचित्र विज़ुअलाइज़ेशन का समर्थन करता है जो एआई प्रैक्टिशनर्स के कार्य को दर्शाते हैं। 12 एआई सुरक्षा विशेषज्ञों के साथ किए गए मूल्यांकन समस्याग्रस्त मॉडल व्यवहारों, जैसे गलत लिंग धारणाओं और तत्काल शारीरिक सुरक्षा खतरों से निपटने के लिए नीतियाँ लिखने में इसकी प्रभावशीलता को प्रदर्शित करते हैं।