Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Kích hoạt Delta: Một biểu diễn cho các mô hình ngôn ngữ lớn được tinh chỉnh

Created by
  • Haebom

Tác giả

Zhiqiu Xu, Amish Sethi, Mayur Naik, Ser-Nam Lim

Phác thảo

Bài báo này nhấn mạnh sự xuất hiện của các LLM mã nguồn mở mạnh mẽ, đã tạo ra thành công một bộ sưu tập lớn các mô hình ngôn ngữ quy mô lớn (LLM) được đào tạo sau, phù hợp với nhiều tác vụ và miền khác nhau. Tuy nhiên, siêu dữ liệu không nhất quán và các kho lưu trữ phi cấu trúc cản trở việc khám phá và hiểu các mô hình này. Chúng tôi đề xuất Delta Activations, một phương pháp biểu diễn các mô hình được tinh chỉnh dưới dạng nhúng vector bằng cách đo lường sự thay đổi trong kích hoạt nội bộ so với mô hình cơ sở. Biểu diễn này cho phép phân cụm hiệu quả trên các miền và tác vụ, làm lộ rõ ​​cấu trúc của bối cảnh mô hình. Delta Activations thể hiện các đặc tính mong muốn, bao gồm khả năng chống chịu với các thiết lập tinh chỉnh và các đặc tính cộng khi các tập dữ liệu tinh chỉnh được trộn lẫn. Hơn nữa, Delta Activations có thể nhúng các tác vụ qua nhiều vòng tinh chỉnh, thể hiện tiềm năng bổ sung cho việc lựa chọn và hợp nhất mô hình. Chúng tôi hy vọng rằng Delta Activations sẽ tạo điều kiện thuận lợi cho việc tái sử dụng các mô hình công khai. Mã có thể được tìm thấy tại https://github.com/OscarXZQ/delta_activations .

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày phương pháp kích hoạt delta, một phương pháp mới để biểu diễn và so sánh hiệu quả các LLM được tinh chỉnh.
Phân nhóm các chương trình LLM theo lĩnh vực và nhiệm vụ để tạo điều kiện thuận lợi cho việc khám phá và hiểu mô hình.
Nó gợi ý các ứng dụng tiềm năng trong việc lựa chọn và hợp nhất mô hình.
Nó có thể thúc đẩy việc tái sử dụng các LLM có sẵn công khai.
Limitations:
Cần nghiên cứu thêm để xác định hiệu suất kích hoạt delta tổng quát như thế nào trên các kiến ​​trúc LLM khác nhau và các cài đặt tinh chỉnh.
Cần phân tích thêm để xác định khả năng diễn giải và độ tin cậy của kích hoạt delta đối với các nhiệm vụ hoặc miền cụ thể.
Cần phải đánh giá thêm về khả năng mở rộng và chi phí tính toán của phương pháp đề xuất.
👍