Bài báo này trình bày một khuôn khổ mới hợp nhất các lời nhắc "bẻ khóa" đối kháng nhiều vòng thành các truy vấn một vòng, giảm đáng kể công sức thủ công cần thiết cho việc kiểm thử đối kháng các mô hình ngôn ngữ quy mô lớn (LLM). Các cuộc bẻ khóa con người nhiều vòng đã cho thấy tỷ lệ thành công cao trong tấn công nhưng đòi hỏi nguồn nhân lực và thời gian đáng kể. Phương pháp nhiều vòng-một vòng (M2S) được đề xuất (Hyphenize, Numberize, Pythonize) định dạng lại một cách có hệ thống các cuộc hội thoại nhiều vòng thành các lời nhắc một vòng có cấu trúc. Mặc dù loại bỏ các tương tác lặp lại, những lời nhắc này vẫn duy trì và thường cải thiện hiệu quả đối kháng. Trong các đánh giá sâu rộng về bộ dữ liệu Bẻ khóa con người nhiều vòng (MHJ), phương pháp M2S đạt tỷ lệ thành công tấn công từ 70,6% đến 95,9% trên một số LLM hiện đại. Đáng chú ý, các lời nhắc một vòng vượt trội hơn cuộc tấn công nhiều vòng ban đầu tới 17,5 điểm phần trăm và giảm hơn một nửa mức sử dụng mã thông báo trung bình. Phân tích sâu hơn cho thấy việc nhúng các yêu cầu độc hại vào các cấu trúc như liệt kê hoặc mã sẽ khai thác "điểm mù ngữ cảnh" để vượt qua cả các biện pháp bảo vệ cơ bản và bộ lọc đầu vào/đầu ra bên ngoài. Khung M2S chuyển đổi các cuộc hội thoại nhiều vòng thành các lời nhắc ngắn gọn, chỉ trong một vòng, cung cấp một công cụ có khả năng mở rộng cho việc kiểm tra đối kháng quy mô lớn và phơi bày một điểm yếu quan trọng trong các biện pháp phòng thủ LLM hiện đại.