Bài báo này đề xuất Tối ưu hóa Ưu tiên Chọn lọc (SePO), một chiến lược căn chỉnh chọn lọc mới cho việc căn chỉnh mô hình ngôn ngữ quy mô lớn. Không giống như các phương pháp căn chỉnh cấp mã thông báo hiện có, vốn tối ưu hóa tất cả các mã thông báo hoặc sử dụng các chiến lược lựa chọn mã thông báo khóa phức tạp và tốn kém, SePO tập trung vào việc lựa chọn mã thông báo khóa hiệu quả. SePO trình bày phương pháp lựa chọn mã thông báo đầu tiên dựa trên Tối ưu hóa Ưu tiên Trực tiếp (DPO), phương pháp này huấn luyện một mô hình oracle để ước tính hàm thưởng cấp mã thông báo cho dữ liệu mục tiêu. Phương pháp này có thể áp dụng cho các tập dữ liệu căn chỉnh hiện có với các chú thích cấp phản hồi và cho phép lựa chọn mã thông báo hiệu quả về chi phí bằng cách sử dụng một mô hình oracle nhỏ và dữ liệu huấn luyện. Hàm thưởng ước tính được sử dụng để chấm điểm tất cả các mã thông báo trong tập dữ liệu mục tiêu và chỉ các mã thông báo khóa được chọn để giám sát mô hình chính sách mục tiêu bằng cách sử dụng hàm mục tiêu tương phản mà không có mô hình tham chiếu. Các thí nghiệm mở rộng trên ba điểm chuẩn đánh giá công khai cho thấy SePO vượt trội đáng kể so với các phương pháp cơ sở cạnh tranh bằng cách chỉ tối ưu hóa 30% số mã thông báo khóa trong tập dữ liệu mục tiêu. Áp dụng SePO từ khái quát yếu sang khái quát mạnh cho thấy một mô hình oracle yếu giám sát hiệu quả một mô hình chính sách mạnh với số lượng tham số nhiều hơn tới 16,8 lần. Hơn nữa, SePO có thể lựa chọn hiệu quả các mã thông báo quan trọng từ dữ liệu ngoài phân phối, cải thiện mô hình chính sách mạnh mẽ và giảm thiểu vấn đề quá khớp.