Trong bài báo này, chúng tôi đề xuất một chuẩn mực TRACE để cải thiện khả năng theo dõi lệnh phức tạp của các mô hình ngôn ngữ quy mô lớn (LLM), và một phương pháp căn chỉnh IOPO xem xét cả lệnh và sở thích phản hồi. TRACE bao gồm 120.000 dữ liệu huấn luyện và 1.000 dữ liệu đánh giá, và IOPO sử dụng các cặp sở thích đầu vào và đầu ra để cho phép LLM nhanh chóng thích ứng với sở thích phản hồi, đồng thời khám phá chi tiết các sở thích lệnh. Kết quả thực nghiệm cho thấy IOPO cải thiện hiệu suất lần lượt là 8,15% và 2,18% trên dữ liệu trong miền, và lần lượt là 6,29% và 3,13% trên dữ liệu ngoài miền, so với các phương pháp SFT và DPO hiện có.