Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

LM-Searcher: Tìm kiếm kiến ​​trúc thần kinh liên miền với LLM thông qua mã hóa số thống nhất

Created by
  • Haebom

Tác giả

Yuxuan Hu, Jihao Liu, Ke Wang, Jinliang Zhen, Weikang Shi, Manyuan Zhang, Qi Dou, Rui Liu, Aojun Chu, Hongsheng Li

Phác thảo

Bài báo này đề xuất LM-Searcher, một khuôn khổ tìm kiếm kiến ​​trúc nơ-ron (NAS) có thể áp dụng cho nhiều tác vụ khác nhau, tận dụng các mô hình ngôn ngữ quy mô lớn (LLM). Trong khi các phương pháp NAS dựa trên LLM hiện có có những hạn chế do phụ thuộc nhiều vào kỹ thuật nhanh chóng và điều chỉnh theo miền cụ thể, LM-Searcher thực hiện tối ưu hóa kiến ​​trúc mạng nơ-ron trên nhiều miền khác nhau mà không cần điều chỉnh theo miền cụ thể. Để đạt được điều này, chúng tôi sử dụng NCode, một biểu diễn chuỗi số phổ quát cho các kiến ​​trúc mạng nơ-ron, để cho phép mã hóa và khám phá kiến ​​trúc liên miền. Hơn nữa, chúng tôi định hình lại bài toán NAS như một nhiệm vụ xếp hạng và huấn luyện LLM bằng cách sử dụng các mẫu điều chỉnh có hướng được lấy từ một chiến lược lấy mẫu không gian con dựa trên cắt tỉa mới để chọn các kiến ​​trúc hiệu suất cao từ một nhóm ứng viên. Một tập dữ liệu được tinh chỉnh chứa các cặp kiến ​​trúc-hiệu suất đa dạng thúc đẩy việc học mạnh mẽ và có thể chuyển giao. Các thí nghiệm mở rộng chứng minh rằng LM-Searcher đạt được hiệu suất cạnh tranh trên cả phạm vi trong miền (ví dụ: CNN để phân loại hình ảnh) và phạm vi miền (ví dụ: kiến ​​trúc LoRA để phân đoạn và tạo), mở ra một mô hình mới cho tìm kiếm kiến ​​trúc dựa trên LLM linh hoạt và có thể khái quát hóa. Bộ dữ liệu và mô hình sẽ được công bố tại https://github.com/Ashone3/LM-Searcher .

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một khuôn khổ NAS dựa trên LLM mới cho phép tối ưu hóa kiến ​​trúc mạng nơ-ron trên nhiều miền khác nhau mà không cần điều chỉnh theo từng miền cụ thể.
Có thể mã hóa và khám phá kiến ​​trúc đa miền bằng cách sử dụng NCode, một biểu diễn chuỗi số phổ biến.
Khám phá kiến ​​trúc hiệu quả thông qua các chiến lược lấy mẫu không gian con dựa trên việc cắt tỉa.
ĐạT được hiệu suất cạnh tranh trong cả hoạt động trong và ngoài miền.
Mã và dữ liệu được công khai để có thể tái tạo
Limitations:
Cần phân tích thêm về hiệu suất tổng quát và những hạn chế của biểu diễn NCode được đề xuất.
Cần phải nghiên cứu thêm để tăng thêm tính linh hoạt của nó cho nhiều nhiệm vụ khác nhau.
Có thể tối ưu hóa và cải thiện các chiến lược lấy mẫu không gian con dựa trên việc cắt tỉa.
Do phụ thuộc nhiều vào hiệu suất của LLM nên có khả năng những hạn chế của LLM có thể ảnh hưởng đến hiệu suất của LM-Searcher.
👍