Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Lý thuyết Nhận thức Thống nhất cho Mô hình Ngôn ngữ: Neo giữ Ngữ nghĩa, Ngưỡng Kích hoạt và Lý luận Mới nổi

Created by
  • Haebom

Tác giả

Edward Y. Chang, Zeyneb N. Kaya, Ethan Chang

Phác thảo

Lý thuyết Nhận thức Thống nhất về Ý thức (UCCT) xem trí thông minh của các mô hình ngôn ngữ quy mô lớn (LLM) không nằm ở bên trong mà là một kho lưu trữ rộng lớn, vô thức của các mẫu. Suy luận chỉ xảy ra khi các cơ chế neo bên ngoài (chẳng hạn như lời nhắc ít lần, ngữ cảnh tăng cường truy xuất, tinh chỉnh hoặc lập luận đa tác nhân) kích hoạt các mẫu liên quan đến nhiệm vụ. UCCT chính thức hóa quá trình này như một cuộc cạnh tranh Bayesian giữa các tiên nghiệm thống kê được học trong quá trình tiền huấn luyện và các mẫu mục tiêu dựa trên ngữ cảnh, cung cấp một giải thích định lượng duy nhất thống nhất các kỹ thuật thích ứng hiện có. Nó dựa trên ba nguyên tắc (vượt ngưỡng, tính phổ quát của phương thức và sức mạnh dự đoán mật độ-khoảng cách) và được xác thực thông qua các cuộc trình diễn liên miền trong QA văn bản, tạo chú thích hình ảnh và lập luận đa tác nhân, cũng như các thí nghiệm chuyên sâu sử dụng các mô hình số (cơ số 8, 9 và 10) và phân tích đường dẫn từng lớp. Kết quả thực nghiệm ủng hộ các dự đoán của UCCT bằng cách chứng minh hành vi ngưỡng, nhiễu bất đối xứng và độ trễ bộ nhớ. Bằng cách chứng minh rằng "trí thông minh" của LLM không phải là vốn có trong mô hình mà được tạo ra thông qua neo ngữ nghĩa, UCCT cung cấp hướng dẫn thực tế cho việc thiết kế các chẩn đoán và gợi ý có thể diễn giải, lựa chọn mô hình và thiết kế hệ thống dựa trên sự liên kết.

Takeaways, Limitations

Takeaways:
Trình bày Khung lý thuyết mới về trí thông minh (UCCT) trong LLM
Cung cấp hướng dẫn thực tế về kỹ thuật nhanh chóng, lựa chọn mô hình và thiết kế hệ thống theo hướng căn chỉnh.
Góp phần nâng cao khả năng diễn giải của LLM
Cung cấp giải thích định lượng duy nhất tích hợp các công nghệ thích ứng hiện có.
Kiểm chứng lý thuyết thông qua các thí nghiệm khác nhau
Limitations:
Cần có thêm nghiên cứu về tính tổng quát và phạm vi của UCCT.
Phạm vi của thí nghiệm được trình bày có thể bị hạn chế.
Cần phải xác minh khả năng áp dụng cho các kiến trúc LLM phức tạp hơn.
Cần đánh giá hiệu suất sâu hơn trong các ứng dụng thực tế.
👍