Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Kích hoạt Delta: Một biểu diễn cho các mô hình ngôn ngữ lớn được tinh chỉnh
Created by
Haebom
Tác giả
Zhiqiu Xu, Amish Sethi, Mayur Naik, Ser-Nam Lim
Phác thảo
Bài báo này nhấn mạnh sự xuất hiện của các LLM mã nguồn mở mạnh mẽ, đã tạo ra thành công một bộ sưu tập lớn các mô hình ngôn ngữ quy mô lớn (LLM) được đào tạo sau, phù hợp với nhiều tác vụ và miền khác nhau. Tuy nhiên, siêu dữ liệu không nhất quán và các kho lưu trữ phi cấu trúc cản trở việc khám phá và hiểu các mô hình này. Chúng tôi đề xuất Delta Activations, một phương pháp biểu diễn các mô hình được tinh chỉnh dưới dạng nhúng vector bằng cách đo lường sự thay đổi trong kích hoạt nội bộ so với mô hình cơ sở. Biểu diễn này cho phép phân cụm hiệu quả trên các miền và tác vụ, làm lộ rõ cấu trúc của bối cảnh mô hình. Delta Activations thể hiện các đặc tính mong muốn, bao gồm khả năng chống chịu với các thiết lập tinh chỉnh và các đặc tính cộng khi các tập dữ liệu tinh chỉnh được trộn lẫn. Hơn nữa, Delta Activations có thể nhúng các tác vụ qua nhiều vòng tinh chỉnh, thể hiện tiềm năng bổ sung cho việc lựa chọn và hợp nhất mô hình. Chúng tôi hy vọng rằng Delta Activations sẽ tạo điều kiện thuận lợi cho việc tái sử dụng các mô hình công khai. Mã có thể được tìm thấy tại https://github.com/OscarXZQ/delta_activations .