Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Máy biến áp mềm cho việc học tập liên tục

Created by
  • Haebom

Tác giả

Haeyong Kang, Chang D. Yoo

Phác thảo

Lấy cảm hứng từ Giả thuyết vé số khởi tạo tốt (WLTH), bài báo này đề xuất Soft-Transformers (Soft-TF), một phương pháp học liên tục (CL) mới được tinh chỉnh hoàn toàn, đào tạo tuần tự và lựa chọn các mạng mềm tối ưu cho mỗi tác vụ. Soft-TF duy trì các tham số của các lớp được đào tạo trước cố định trong quá trình học liên tục, đồng thời tối ưu hóa trọng số của các lớp thưa thớt bằng cách sử dụng mặt nạ Soft-TF được khởi tạo tốt để có được các mạng mềm (giá trị thực) thích ứng với tác vụ. Trong quá trình suy luận, mạng thích ứng với tác vụ đã xác định sẽ che các tham số của mạng được đào tạo trước để ánh xạ nó thành giải pháp tối ưu cho mỗi tác vụ, giảm thiểu tình trạng quên thảm khốc (CF). Che mềm bảo toàn kiến ​​thức của mạng được đào tạo trước. Các thí nghiệm mở rộng trên Vision Transformer (ViT) và Language Transformer (Bert) chứng minh tính hiệu quả của Soft-TF, đạt được hiệu suất tiên tiến trong các tình huống học gia tăng (CIL) của lớp ngôn ngữ và thị giác.

Takeaways, Limitations

Takeaways:
Một phương pháp mới để áp dụng hiệu quả Giả thuyết vé số khởi tạo tốt vào học tập liên tục được trình bày.
Giải quyết hiệu quả vấn đề quên lãng nghiêm trọng bằng cách sử dụng mạng mềm thích ứng với nhiệm vụ.
Các thí nghiệm với ViT và Bert chứng minh hiệu suất tiên tiến trong cả lĩnh vực thị giác và ngôn ngữ.
Bảo tồn hiệu quả kiến ​​thức của các mạng được đào tạo trước thông qua các kỹ thuật che phủ mềm.
Limitations:
Thiếu phân tích về chi phí tính toán và độ phức tạp của phương pháp đề xuất.
Cần phải xác thực thêm hiệu suất tổng quát trên nhiều tập dữ liệu và nhiệm vụ khác nhau.
Cần có lời giải thích chi tiết hơn về chiến lược tối ưu hóa cho mặt nạ Soft-TF.
Có thể phụ thuộc vào các kiến ​​trúc cụ thể (ViT, Bert).
👍