Trong bài báo này, chúng tôi đề xuất một khuôn khổ mới, Lấy mẫu sở thích cứng (HPS), để căn chỉnh các phản hồi của mô hình ngôn ngữ quy mô lớn (LLM) với sở thích của con người. Các phương pháp tối ưu hóa sở thích dựa trên mô hình Plackett-Luce (PL) và Bradley-Terry (BT) hiện có gặp phải các vấn đề như khó xử lý nội dung có hại, sử dụng không hiệu quả các phản hồi không được ưu tiên và chi phí tính toán PL cao. HPS giải quyết những vấn đề này bằng cách đưa ra một tổn thất đào tạo ưu tiên các phản hồi được ưu tiên nhất và từ chối tất cả các phản hồi không được ưu tiên và có hại. Đặc biệt, nó tăng cường khả năng loại bỏ của mô hình bằng cách nhấn mạnh các phản hồi không được ưu tiên "cứng" tương tự như các phản hồi được ưu tiên và nó duy trì chất lượng căn chỉnh trong khi giảm chi phí tính toán bằng cách sử dụng chiến lược lấy mẫu Monte Carlo một mẫu. Về mặt lý thuyết, HPS cải thiện hiệu quả lấy mẫu so với các phương pháp PL hiện có và tối đa hóa biên độ bù giữa các phản hồi được ưu tiên và không được ưu tiên, đảm bảo sự phân biệt rõ ràng hơn. Thông qua các thử nghiệm trên các tập dữ liệu HH-RLHF và PKU-Safety, chúng tôi xác minh tính hiệu quả của HPS, đạt được điểm BLEU và điểm thưởng tương tự trong khi cải thiện đáng kể biên độ phần thưởng, do đó làm giảm việc tạo ra nội dung có hại.