Nghiên cứu này khảo sát một khuôn khổ tự hợp lý hóa bao gồm một trò chơi hợp tác giữa bộ tạo và bộ dự đoán. Bộ tạo trích xuất các phần thông tin nhất của dữ liệu thô, và bộ dự đoán sử dụng tập con đã chọn làm đầu vào. Bộ tạo và bộ dự đoán được huấn luyện hợp tác để tối đa hóa độ chính xác của dự đoán. Bài báo này trước tiên chỉ ra một vấn đề tiềm ẩn: trò chơi hợp tác có thể vô tình tạo ra sai lệch lấy mẫu trong quá trình trích xuất hợp lý hóa. Cụ thể, bộ tạo có thể vô tình tạo ra các tương quan sai giữa các ứng viên hợp lý hóa đã chọn và các nhãn, ngay cả khi chúng không liên quan về mặt ngữ nghĩa trong tập dữ liệu gốc. Sau đó, chúng tôi giải thích nguồn gốc của sai lệch này bằng cách sử dụng phân tích lý thuyết chi tiết và bằng chứng thực nghiệm. Kết quả của chúng tôi gợi ý các cách để kiểm tra các tương quan này bằng các cuộc tấn công, và dựa trên những phát hiện này, chúng tôi cung cấp hướng dẫn bổ sung để ngăn bộ dự đoán học các tương quan. Các thí nghiệm trên sáu tập dữ liệu phân loại văn bản và hai tập dữ liệu phân loại đồ thị sử dụng ba kiến trúc mạng (GRU, BERT và GCN) chứng minh rằng phương pháp được đề xuất vượt trội đáng kể so với các phương pháp hợp lý hóa gần đây và đạt được kết quả tương đương hoặc tốt hơn so với LLM đại diện (llama3.1-8b-instruct).