Bài báo này đề cập đến vấn đề các mô hình ngôn ngữ suy luận trọng số mở tạo ra các quy trình suy nghĩ dài (CoT) trước khi tạo ra phản hồi cuối cùng, điều này gây ra thêm rủi ro căn chỉnh cùng với lợi ích về hiệu suất, và nội dung có hại xuất hiện trong cả CoT và đầu ra cuối cùng. Chúng tôi nghiên cứu liệu CoT có thể được sử dụng để dự đoán lỗi căn chỉnh trong phản hồi cuối cùng hay không. Chúng tôi đánh giá một số phương pháp giám sát (con người, mô hình ngôn ngữ quy mô lớn hiệu suất cao và bộ phân loại văn bản) bằng cách sử dụng văn bản CoT hoặc kích hoạt, và nhận thấy rằng các đầu dò tuyến tính đơn giản được đào tạo trên các kích hoạt CoT có hiệu suất vượt trội đáng kể so với các phương pháp dựa trên văn bản trong việc dự đoán tính an toàn của phản hồi cuối cùng. Mặc dù văn bản CoT thường không chính xác và có thể gây hiểu lầm cho cả con người và bộ phân loại, nhưng các biến tiềm ẩn của mô hình (tức là kích hoạt CoT) cung cấp tín hiệu dự đoán đáng tin cậy hơn. Các đầu dò đưa ra dự đoán chính xác trước khi quá trình suy luận hoàn tất và đạt được hiệu suất mạnh mẽ ngay cả khi được áp dụng cho các phân đoạn CoT ban đầu. Những kết quả này được khái quát hóa trên các kích thước mô hình, họ và chuẩn mực an toàn, cho thấy các đầu dò nhẹ có thể cho phép giám sát an toàn theo thời gian thực và can thiệp sớm trong quá trình tạo.