Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Sự khuếch tán vượt trội hơn hồi quy tự động trong các cài đặt dữ liệu bị hạn chế

Created by
  • Haebom

Tác giả

Mihir Prabhudesai, Mengning Wu, Amir Zadeh, Katerina Fragkiadaki, Deepak Pathak

Phác thảo

Trong khi các mô hình tự hồi quy (AR) từ lâu đã thống trị lĩnh vực mô hình ngôn ngữ quy mô lớn, các mô hình ngôn ngữ dựa trên khuếch tán gần đây đã nổi lên như một giải pháp thay thế đầy hứa hẹn. Trong bài báo này, chúng tôi nghiên cứu một cách có hệ thống các mô hình khuếch tán che dấu trong môi trường hạn chế dữ liệu và nhận thấy rằng các mô hình khuếch tán vượt trội hơn đáng kể so với các mô hình tự hồi quy khi tài nguyên tính toán dồi dào nhưng dữ liệu lại khan hiếm. Các mô hình khuếch tán liên tục sử dụng dữ liệu để giảm tổn thất xác thực và đạt được hiệu suất vượt trội trong các tác vụ hạ nguồn. Ưu điểm này có thể được hiểu là sự tăng cường dữ liệu ngầm định, vì khuếch tán che dấu cho phép mô hình tiếp xúc với các thứ tự mã thông báo và tác vụ dự đoán đa dạng, không giống như phân tích nhân tử từ trái sang phải cố định của các mô hình tự hồi quy. Trong bài báo này, chúng tôi đề xuất một quy luật tỷ lệ mới cho các mô hình khuếch tán và đưa ra một biểu thức dạng đóng cho giới hạn tính toán quan trọng mà tại đó các mô hình khuếch tán vượt trội hơn các mô hình tự hồi quy. Những kết quả này cho thấy các mô hình khuếch tán là một giải pháp thay thế hấp dẫn cho mô hình tự hồi quy truyền thống khi tài nguyên tính toán, chứ không phải dữ liệu, là nút thắt cổ chai.

Takeaways, Limitations

_____T31675____-: Chúng tôi chứng minh rằng các mô hình khuếch tán hoạt động tốt hơn các mô hình tự hồi quy khi tài nguyên tính toán dồi dào và dữ liệu khan hiếm. Chúng tôi đề xuất rằng hiệu ứng tăng cường dữ liệu ngầm định của các mô hình khuếch tán cho phép học tập nhiều chuỗi token và tác vụ dự đoán khác nhau. Chúng tôi cung cấp một phân tích về các quy luật tỷ lệ và giới hạn tính toán quan trọng của các mô hình khuếch tán.
_____T31676____-: Nghiên cứu này chỉ giới hạn trong một môi trường ràng buộc dữ liệu cụ thể và cần nghiên cứu thêm để xác định khả năng khái quát hóa của nó cho các phân phối dữ liệu hoặc tác vụ khác. Các giới hạn tính toán quan trọng được trình bày dành cho một bối cảnh cụ thể và có thể thay đổi trong các bối cảnh khác.
👍