Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Khơi dậy khả năng viết sáng tạo trong các mô hình ngôn ngữ nhỏ: LLM-với-vị-thẩm-phán so với phần thưởng tinh tế của nhiều tác nhân

Created by
  • Haebom

Tác giả

Xiaolong Wei, Bo Lu, Xingyu Zhang, Zhejun Zhao, Dongdong Shen, Long Xia, Dawei Yin

Phác thảo

Bài báo này trình bày một phương pháp tiếp cận dựa trên học tăng cường (reinforcement learning) để cải thiện khả năng viết sáng tạo của các mô hình ngôn ngữ quy mô nhỏ (SLM). Chúng tôi nghiên cứu hai chiến lược khen thưởng dựa trên AI trong khuôn khổ Học tăng cường với trí thông minh (RLAIF), nhắm mục tiêu tạo lời chào tiếng Trung bằng SLM 7 tỷ tham số. Chiến lược đầu tiên sử dụng RM được đào tạo với dữ liệu ưu tiên chất lượng cao được tạo ra thông qua khuôn khổ lấy mẫu từ chối đa tác nhân, trong khi chiến lược thứ hai sử dụng LLM-as-a-Judge dựa trên nguyên tắc được tối ưu hóa thông qua đào tạo đối kháng và cơ chế phản xạ. Kết quả thử nghiệm cho thấy cả hai phương pháp đều cải thiện đáng kể đầu ra sáng tạo so với các mô hình cơ sở, nhưng LLM-as-a-Judge dựa trên nguyên tắc mang lại chất lượng tạo vượt trội và lợi ích về hiệu quả đào tạo và giảm sự phụ thuộc vào dữ liệu chú thích của con người. Phương pháp đánh giá tự động thể hiện sự đồng thuận cao với đánh giá của con người.

Takeaways, Limitations

Takeaways:
Một khuôn khổ RLAIF hiệu quả để cải thiện khả năng viết sáng tạo của các mô hình ngôn ngữ quy mô nhỏ được trình bày.
Chúng tôi trình bày một phương pháp đào tạo SLM có khả năng mở rộng và sáng tạo giúp giảm sự phụ thuộc vào dữ liệu của con người.
Xác nhận sự xuất sắc và chứng minh hiệu quả của chiến lược LLM-as-a-Judge dựa trên nguyên tắc.
Các số liệu đánh giá tự động cho thấy mối tương quan cao với đánh giá của con người.
Limitations:
Hiện tại, nó chuyên tạo ra lời chào tiếng Trung, vì vậy cần nghiên cứu thêm để xác định khả năng tổng quát hóa của nó sang các ngôn ngữ hoặc nhiệm vụ khác.
Vì kết quả dành cho SLM có 7 tỷ tham số nên cần phải xác minh khả năng tổng quát hóa cho các SLM có quy mô khác nhau.
Khó có thể đảm bảo tính khách quan hoàn toàn của các chỉ số đánh giá tự động được sử dụng.
👍