Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Dạy các mô hình ngôn ngữ lớn để duy trì tính trung thực theo ngữ cảnh thông qua các nhiệm vụ tổng hợp và học tăng cường

Created by
  • Haebom

Tác giả

Shuzheng Si, Haozhe Zhao, Cheng Gao, Yuzhuo Bai, Zhitong Wang, Bofei Gao, Kangyang Luo, Wenhao Li, Yufei Huang, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun

Phác thảo

Bài báo này đề xuất CANOE, một khuôn khổ mới để tạo ra các phản hồi nhận biết ngữ cảnh nhằm nâng cao độ tin cậy của các mô hình ngôn ngữ quy mô lớn (LLM). CANOE tổng hợp dữ liệu hỏi đáp (QA) ngắn hạn đa dạng mà không cần chú thích của con người để tạo ra dữ liệu huấn luyện chất lượng cao, có thể kiểm chứng. Hơn nữa, chúng tôi đề xuất Dual-GRPO, một phương pháp học tăng cường dựa trên quy tắc kết hợp ba phần thưởng dựa trên quy tắc có nguồn gốc từ dữ liệu QA ngắn hạn được tổng hợp để tối ưu hóa đồng thời việc tạo ra phản hồi ngắn hạn và dài hạn. Dual-GRPO giải quyết các vấn đề về dán nhãn thủ công cho huấn luyện mô hình phần thưởng và tối ưu hóa quá mức ngắn hạn. Kết quả thực nghiệm chứng minh rằng CANOE cải thiện đáng kể độ trung thực của LLM trên 11 tác vụ khác nhau, vượt trội hơn các LLM tiên tiến như GPT-4o và OpenAI o1.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một khuôn khổ hiệu quả (CANOE) để cải thiện độ trung thực của LLM mà không cần chú thích của con người.
Tối ưu hóa hiệu quả việc tạo ra phản ứng ngắn hạn và dài hạn bằng cách sử dụng phương pháp học tăng cường dựa trên quy tắc.
Đã Chứng minh hiệu suất nâng cao độ trung thực vượt trội so với LLM hiện đại.
Thể hiện tính linh hoạt trong nhiều hoạt động hạ nguồn khác nhau.
Limitations:
Phụ thuộc vào chất lượng dữ liệu tổng hợp. Sự đa dạng và chất lượng của dữ liệu tổng hợp có thể ảnh hưởng đến hiệu suất của CANOE.
Khả năng khái quát hóa phần thưởng dựa trên quy tắc. Các quy tắc được tối ưu hóa cho một nhiệm vụ cụ thể có thể làm giảm hiệu suất khi áp dụng cho các nhiệm vụ khác.
Khả năng mở rộng của phương pháp đề xuất. Khả năng áp dụng cho các tập dữ liệu lớn hơn và các tác vụ phức tạp cần được xác minh.
👍