[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Mất trong quá trình truyền tải: Khi nào và tại sao các LLM không thể lý giải trên toàn cầu

Created by
  • Haebom

Tác giả

Tobias Schnabel, Kiran Tomlinson, Adith Swaminathan, Jennifer Neville

Phác thảo

Bài báo này giải thích lý do tại sao các mô hình ngôn ngữ quy mô lớn (LLM) dựa trên Transformer gặp khó khăn với các tác vụ đòi hỏi suy luận phức tạp trên một phần lớn dữ liệu đầu vào do khả năng truyền tải sự chú ý hạn chế của chúng. Để đạt được mục đích này, chúng tôi trình bày mô hình Oracle Tiền tố Chú ý Giới hạn (BAPO), một khuôn khổ tính toán mới mô hình hóa các ràng buộc băng thông của đầu chú ý, cơ chế giao tiếp nội bộ của LLM. Chúng tôi chỉ ra rằng các vấn đề suy luận quan trọng, chẳng hạn như khả năng tiếp cận đồ thị, đòi hỏi băng thông giao tiếp cao để giải quyết BAPO, và chúng tôi định nghĩa những vấn đề này là các vấn đề BAPO-khó. Các thí nghiệm hỗ trợ các dự đoán lý thuyết của chúng tôi bằng cách chỉ ra rằng GPT-4o, Claude và Gemini thành công trong các tác vụ BAPO-dễ nhưng thất bại trong các tác vụ BAPO-khó tương đối nhỏ. Chúng tôi cũng chứng minh rằng việc phân tích các tác vụ sử dụng CoT (CoT) có thể biến bất kỳ vấn đề BAPO-khó nào thành vấn đề BAPO-dễ, cho thấy một ưu điểm khác của CoT. Tóm lại, bài báo này cung cấp một lời giải thích có nguyên tắc cho các lỗi chính của LLM và đề xuất các hướng cho kiến trúc và phương pháp suy luận giúp giảm thiểu các ràng buộc băng thông.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một khuôn khổ lý thuyết mới (BAPO) giải thích nguyên nhân dẫn đến sự suy giảm khả năng suy luận của LLM do băng thông hạn chế của cơ chế chú ý.
Chúng tôi phân tích một cách có hệ thống những hạn chế về hiệu suất của LLM bằng cách phân biệt giữa các vấn đề BAPO khó và BAPO dễ.
Hiệu ứng của Chuỗi tư duy (CoT) được giải thích về mặt lý thuyết thông qua mô hình BAPO.
Trình bày những hướng đi mới để cải thiện kiến trúc LLM và phương pháp suy luận.
Limitations:
Mô hình BAPO là mô hình đơn giản hóa và có thể không phản ánh đầy đủ mức độ phức tạp của một LLM thực sự.
Thí nghiệm này chỉ giới hạn ở một LLM cụ thể và một loại vấn đề cụ thể, đòi hỏi phải nghiên cứu thêm về khả năng khái quát hóa.
Thiếu kiến trúc hoặc phương pháp lập luận cụ thể để giải quyết các vấn đề khó của BAPO.
👍