Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

FedP$^2$EFT: Học tập liên bang để cá nhân hóa PEFT cho các chương trình LLM đa ngôn ngữ

Created by
  • Haebom

Tác giả

Royson Lee, Minyoung Kim, Fady Rezk, Rui Li, Stylianos I. Venieris, Timothy Hospedales

Phác thảo

Bài báo này tập trung vào học liên bang (FL), cho phép đào tạo các mô hình ngôn ngữ quy mô lớn đa ngôn ngữ (LLM) bằng cách sử dụng dữ liệu đa ngôn ngữ đa dạng và phân tán, đặc biệt là đối với các ngôn ngữ có ít tài nguyên. Cá nhân hóa bằng cách sử dụng các mô-đun tinh chỉnh hiệu quả tham số (PEFT), chẳng hạn như LoRA, thường được sử dụng để cải thiện hiệu suất cụ thể của máy khách. Điều này liên quan đến các chiến lược cá nhân hóa (PS), chẳng hạn như thiết kế các cấu trúc bộ điều hợp PEFT (ví dụ: các lớp để thêm LoRA và thứ hạng của chúng) và lựa chọn các siêu tham số để tinh chỉnh (ví dụ: tốc độ học). Thay vì cấu hình thủ công các PS, bài báo này đề xuất FedP²EFT, một phương pháp học tập-cá nhân hóa liên bang cho các LLM đa ngôn ngữ trong cài đặt FL trên nhiều thiết bị. FedP²EFT cùng học một cấu trúc PEFT được cá nhân hóa tối ưu cho từng máy khách thông qua lựa chọn thứ hạng thưa Bayesian. Các đánh giá trên các điểm chuẩn FL đa ngôn ngữ mô phỏng và thực tế chứng minh rằng FedP²EFT vượt trội đáng kể so với các phương pháp tinh chỉnh cá nhân hóa hiện có và bổ sung cho các phương pháp FL hiện có khác.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp cá nhân hóa dựa trên học tập liên bang mới (FedP²EFT) để cải thiện hiệu suất cụ thể của khách hàng đối với các LLM đa ngôn ngữ.
Học hiệu quả cấu trúc PEFT tối ưu và giảm thiểu các vấn đề quá khớp trong môi trường dữ liệu thấp thông qua lựa chọn thứ hạng thưa Bayesian.
Hiệu suất vượt trội so với các phương pháp hiện có đã được xác minh trên các tập dữ liệu mô phỏng và thực tế.
Đề Xuất khả năng bổ sung bằng nhiều phương pháp FL khác nhau.
ĐảM bảo khả năng tái tạo và khả năng mở rộng thông qua việc công bố mã nguồn mở.
Limitations:
Hiệu suất của phương pháp đề xuất có thể phụ thuộc vào tập dữ liệu cụ thể và kiến ​​trúc LLM.
Cần có thêm nghiên cứu về hiệu suất tổng quát trong môi trường đa ngôn ngữ thực tế.
Lựa chọn thứ hạng thưa theo Bayes có thể tốn kém về mặt tính toán.
Cần có những thử nghiệm toàn diện hơn trên các tập dữ liệu đa ngôn ngữ có nhiều quy mô và đặc điểm khác nhau.
👍