Để Khắc phục những hạn chế của các hệ thống đề xuất có thể giải thích hiện có, bài báo này đề xuất một khuôn khổ tối ưu hóa tương tác động dựa trên phản hồi giống con người. Khuôn khổ này sử dụng mô hình ngôn ngữ quy mô lớn (LLM) như một công cụ mô phỏng con người để dự đoán phản hồi của con người và nâng cao khả năng hiểu ngôn ngữ và lập luận logic của LLM thông qua phương pháp chấm điểm thưởng được thiết kế riêng cho người dùng. Hơn nữa, tối ưu hóa Pareto được giới thiệu để giải quyết vấn đề đánh đổi giữa chất lượng giải thích từ nhiều góc độ khác nhau, và một quy trình tối ưu hóa ngoài chính sách được sử dụng để đạt được hiệu quả học mô hình. Kết quả thực nghiệm chứng minh rằng phương pháp đề xuất vượt trội hơn các phương pháp hiện có.