Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

LoRA-XS: Thích ứng bậc thấp với số lượng tham số cực kỳ nhỏ

Created by
  • Haebom

Tác giả

Klaudia Ba{\l}azy, Mohammadreza Banaei, Karl Aberer, Jacek Tabor

Phác thảo

Bài báo này trình bày LoRA-XS, một phương pháp tinh chỉnh hiệu quả tham số mới để giải quyết các hạn chế của LoRA, vốn gặp khó khăn về lưu trữ và tính toán khi triển khai các mô-đun cho nhiều tác vụ hoặc người dùng khác nhau. LoRA-XS giảm đáng kể số lượng tham số có thể đào tạo bằng cách kết hợp các ma trận trọng số có thể đào tạo nhỏ giữa các ma trận hạng thấp cố định thu được từ phân tích giá trị kỳ dị (SVD) của các trọng số được đào tạo trước. So với LoRA trong mô hình 7B, nó giảm yêu cầu lưu trữ hơn 100 lần và mở rộng từ một tham số trên mỗi mô-đun đến bất kỳ kích thước tùy ý nào. Các đánh giá trên GLUE, GSM8K, MATH và các chuẩn mực suy luận thông thường chứng minh rằng LoRA-XS có độ chính xác ngang bằng hoặc tốt hơn LoRA và VeRA, đồng thời mang lại hiệu quả tham số vượt trội. Các thí nghiệm bổ sung làm nổi bật tầm quan trọng của các vectơ kỳ dị chứng minh tính hữu ích của LoRA-XS như một giải pháp mạnh mẽ và hiệu quả về lưu trữ để mở rộng quy mô và cá nhân hóa các mô hình ngôn ngữ quy mô lớn.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp tinh chỉnh mới, LoRA-XS, có hiệu quả giải quyết các vấn đề về lưu trữ và chi phí tính toán của LoRA.
Mô hình 7B tiết kiệm dung lượng lưu trữ hơn 100 lần so với LoRA.
Số lượng tham số có thể đào tạo linh hoạt (từ một tham số cho mỗi mô-đun đến kích thước tùy ý).
ĐạT được độ chính xác tương đương hoặc vượt trội so với LoRA và VeRA trên các tiêu chuẩn GLUE, GSM8K, MATH và lý luận thông thường.
Trình bày thực nghiệm về tầm quan trọng của các vectơ kỳ dị trong trọng lượng máy biến áp.
Cung cấp giải pháp hiệu quả để mở rộng quy mô và cá nhân hóa các mô hình ngôn ngữ quy mô lớn.
Limitations:
Cần nghiên cứu thêm để xác định khả năng khái quát hóa của các kết quả thực nghiệm được trình bày trong bài báo này.
Cần phải thử nghiệm rộng rãi hơn với nhiều kích thước và nhiệm vụ mô hình khác nhau.
Cần phải xem xét lại để xác định xem liệu những cải tiến về hiệu suất của LoRA-XS có thiên về các tập dữ liệu hoặc tác vụ cụ thể hay không.
👍