Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Cắt tỉa tính toán thích ứng cho máy biến áp hay quên

Created by
  • Haebom

Tác giả

Zhixuan Lin, Johan Obando-Ceron, Xu Owen He, Aaron Courville

Phác thảo

Chúng tôi đề xuất Adaptive Computation Pruning (ACP) để cải thiện hiệu suất của Forgetting Transformer (FoX). FoX cải thiện hiệu suất so với Transformer truyền thống bằng cách đưa vào một cổng forget cho sự chú ý softmax, nhưng nhiều người chú ý có xu hướng quên thông tin nhanh chóng. ACP giải quyết vấn đề này bằng cách loại bỏ động các phép tính liên quan đến sự phụ thuộc đầu vào-đầu ra bị suy giảm mạnh bởi cổng forget. Nó thực hiện cắt tỉa một cách an toàn thông qua ngưỡng cắt tỉa được thiết lập động và việc áp dụng ACP cho FoX trong quá trình huấn luyện trước mô hình ngôn ngữ đã giảm FLOP và truy cập bộ nhớ khoảng 70%. Điều này dẫn đến việc giảm 50-70% thời gian thực hiện sự chú ý ( tăng tốc gấp 2-3 lần) và tăng 10-40% thông lượng đào tạo đầu cuối. Tiết kiệm tính toán lớn hơn đối với các ngữ cảnh dài hơn. Chúng tôi đã đạt được tốc độ này mà không ảnh hưởng đến hiệu suất.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một kỹ thuật ACP giúp cải thiện đáng kể hiệu quả của FoX.
Tốc độ tính toán chú ý được cải thiện từ 2-3 lần bằng cách giảm đáng kể FLOP và truy cập bộ nhớ.
Tăng hiệu suất học tập toàn diện từ 10-40%.
Nó có hiệu quả hơn trong bối cảnh dài.
ĐạT được tốc độ tăng mà không ảnh hưởng đến hiệu suất.
Limitations:
Kỹ thuật ACP chuyên dùng cho FoX và khả năng áp dụng của nó cho các mẫu Transformer khác cần được nghiên cứu thêm.
Hiện tại, kết quả chỉ giới hạn ở một triển khai cụ thể (có liên kết GitHub) và cần xác minh thêm để xác định khả năng áp dụng cho các triển khai hoặc môi trường phần cứng khác.
👍