[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Sự cộng sinh: Suy luận đa bộ điều hợp và tinh chỉnh

Created by
  • Haebom

Tác giả

Saransh Gupta, Umesh Deshpande, Travis Janssen, Swami Sundararaman

Phác thảo

Bài báo này đề xuất một khuôn khổ Symbiosis giải quyết các vấn đề về tiêu thụ quá mức và sử dụng không hết bộ nhớ GPU xảy ra trong quá trình tinh chỉnh các mô hình ngôn ngữ quy mô lớn (LLM) bằng kỹ thuật Tinh chỉnh hiệu quả tham số (PEFT). Các khuôn khổ hiện có có những hạn chế ở chỗ chúng yêu cầu triển khai riêng các phiên bản mô hình cơ sở cho từng tác vụ khi tinh chỉnh hoặc suy luận bằng nhiều bộ điều hợp, không hỗ trợ kết hợp các phương pháp PEFT khác nhau hoặc quản lý tài nguyên độc lập, không cho phép chia sẻ tài nguyên giữa các tác vụ suy luận và tinh chỉnh và thiếu bảo vệ quyền riêng tư. Symbiosis giải quyết các vấn đề này bằng cách phân phối mô hình cơ sở dưới dạng dịch vụ, cho phép nhiều quy trình suy luận hoặc tinh chỉnh chia sẻ lớp mô hình cơ sở. Bằng cách tách biệt việc thực thi các bộ điều hợp và lớp cụ thể của máy khách khỏi lớp mô hình cơ sở cố định thông qua kỹ thuật thực thi riêng biệt, nó mang lại sự linh hoạt trong việc quản lý tài nguyên, lựa chọn các phương pháp tinh chỉnh và đạt được các mục tiêu hiệu suất. Kết quả đánh giá sử dụng Llama2-13B cho thấy có thể tinh chỉnh số lượng bộ điều hợp nhiều hơn gấp bốn lần trong cùng một môi trường GPU trong cùng một khoảng thời gian so với các phương pháp hiện có.

Takeaways, Limitations

Takeaways:
Cho phép tinh chỉnh và suy luận LLM dựa trên PEFT tiết kiệm bộ nhớ GPU.
Hỗ trợ nhiều phương pháp PEFT khác nhau và quản lý tài nguyên độc lập.
Khả năng chia sẻ tài nguyên mô hình cơ sở giữa các tác vụ suy luận và tinh chỉnh.
Cung cấp tính năng bảo vệ quyền riêng tư của người dùng.
Tương thích với hầu hết các mô hình trong thư viện Transformers.
ĐạT được hiệu quả tinh chỉnh cao gấp bốn lần so với các phương pháp thông thường.
Limitations:
Có thể còn thiếu thông tin chi tiết về việc triển khai thực tế và khả năng mở rộng của khuôn khổ Symbiosis.
Có thể cần phải đánh giá hiệu suất tổng quát bổ sung cho các kích cỡ LLM và bộ điều hợp khác nhau.
Có thể cần xác thực bổ sung để xác định xem có cần tối ưu hóa cho môi trường phần cứng cụ thể hay không và hiệu suất trong môi trường phần cứng chung.
👍