Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
RLTHF: Phản hồi của con người được nhắm mục tiêu để điều chỉnh LLM
Created by
Haebom
Tác giả
Yifei Xu, Tusher Chakraborty, Emre K{\i}c{\i}man, Bibek Aryal, Eduardo Rodrigues, Srinagesh Sharma, Roberto Estevao, Maria Angels de Luis Balaguer, Jessica Wolk, Rafael Padilha, Leonardo Nunes, Shobana Balakrishnan, Songwu Lu, Ranveer Chandra
Phác thảo
Bài báo này đề xuất RLTHF, một khuôn khổ lai giữa con người và AI, để giải quyết chi phí cao của học tăng cường dựa trên phản hồi của con người (RLHF) và khả năng tổng quát hóa hạn chế của phản hồi AI trong quá trình căn chỉnh các mô hình ngôn ngữ quy mô lớn (LLM) theo sở thích của người dùng. RLTHF đạt được sự căn chỉnh hoàn toàn do con người chú thích với nỗ lực tối thiểu bằng cách kết hợp sự căn chỉnh ban đầu dựa trên LLM với các chú thích của con người có chọn lọc. Nó sử dụng phân phối phần thưởng của mô hình phần thưởng để xác định các mẫu thử thách bị phân loại sai bởi LLM và cải thiện sự căn chỉnh theo từng bước bằng cách tận dụng các mẫu được phân loại chính xác bởi LLM trong khi kết hợp các sửa lỗi chiến lược của con người. Kết quả đánh giá trên các tập dữ liệu HH-RLHF và TL;DR chứng minh rằng RLTHF đạt được sự căn chỉnh hoàn toàn do con người chú thích chỉ với 6-7% các nhiệm vụ do con người chú thích. Hơn nữa, các mô hình được đào tạo trên tập dữ liệu được quản lý của RLTHF hoạt động tốt hơn các mô hình được đào tạo trên tập dữ liệu đầy đủ do con người chú thích trên các nhiệm vụ phụ, làm nổi bật hiệu quả của RLTHF.
Takeaways, Limitations
•
Takeaways:
◦
Một cách tiếp cận mới để giải quyết hiệu quả chi phí cao của RLHF được trình bày.
◦
ĐạT được sự liên kết mô hình cấp cao với nỗ lực tối thiểu của con người.
◦
Các mô hình được đào tạo bằng RLTHF hoạt động tốt hơn các mô hình dựa trên dữ liệu có chú thích đầy đủ hiện có.
◦
Chứng minh tính hiệu quả của phương pháp kết hợp giữa thế mạnh của LLM với chuyên môn của con người.
•
Limitations:
◦
Hiệu suất của RLTHF có thể phụ thuộc vào độ chính xác của mô hình khen thưởng. Việc giảm hiệu suất của mô hình khen thưởng có thể dẫn đến giảm hiệu quả của RLTHF.
◦
Vì kết quả đánh giá được lấy từ một tập dữ liệu hạn chế (HH-RLHF, TL;DR) nên cần nghiên cứu thêm để xác định hiệu suất tổng quát hóa cho các tập dữ liệu hoặc nhiệm vụ khác.
◦
Thiếu phân tích chi tiết về loại lỗi mà LLM mắc phải và loại lỗi nào được con người sửa chữa.
◦
Cần nghiên cứu thêm để tối ưu hóa chiến lược chú thích chọn lọc của con người đối với RLTHF.