Bài báo này nêu bật vấn đề mà việc tinh chỉnh có giám sát và học tăng cường, với tư cách là các phương pháp sau đào tạo cho các mô hình ngôn ngữ quy mô lớn (LLM), góp phần cải thiện hiệu suất mô hình, nhưng lại làm giảm tính đa dạng đầu ra, dẫn đến các phản hồi hẹp và điển hình. Các phương pháp tăng cường tính đa dạng hiện có có những hạn chế, hoạt động tại thời điểm suy luận hoặc chỉ tập trung vào sự khác biệt về từ vựng. Để giải quyết vấn đề này, bài báo này đề xuất DQO, một phương pháp đào tạo mới dựa trên Quy trình Điểm Quyết định (DPP). DQO lấy mẫu và nhúng nhiều phản hồi cho mỗi lời nhắc, đo lường tính đa dạng bằng cách đo thể tích bị chiếm giữ bởi các nhúng phản hồi này. Các thí nghiệm trên nhiều tác vụ khác nhau (theo hướng, tóm tắt, tạo câu chuyện và suy luận) chứng minh rằng DQO cải thiện đáng kể tính đa dạng ngữ nghĩa mà không ảnh hưởng đến chất lượng mô hình.