Bài báo này là bài thứ ba trong loạt báo cáo ngắn được thiết kế để giúp hiểu rõ hơn các chi tiết kỹ thuật của tương tác giữa các mô hình AI thông qua quá trình kiểm tra nghiêm ngặt. Báo cáo này xem xét hiệu quả của hai phương pháp thường được sử dụng để cải thiện hiệu suất AI: mô hình AI "gợi ý" và mô hình AI "đe dọa". Các thí nghiệm sử dụng chuẩn GPQA và MMLU-Pro cho thấy các mô hình đe dọa hoặc lật đổ không ảnh hưởng đáng kể đến hiệu suất chuẩn. Tuy nhiên, mặc dù các biến thể gợi ý theo từng câu hỏi có thể ảnh hưởng đáng kể đến hiệu suất, nhưng rất khó để biết trước liệu một phương pháp gợi ý cụ thể sẽ có lợi hay bất lợi cho một câu hỏi nhất định. Điều này cho thấy các biến thể gợi ý đơn giản có thể không hiệu quả như trước đây, đặc biệt là đối với các bài toán khó.