Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Các Thạc sĩ Luật (LLM) có trái tim sắt đá: Giải mã khả năng tư duy mềm dẻo của các mô hình lý luận lớn

Created by
  • Haebom

Tác giả

Chunhung Wu, Jinliang Lu, Zixuan Ren, Gangqiang Hu, Zhi Wu, Dai Dai, Hua Wu

Phác thảo

Bài báo này phân tích khả năng "tư duy mềm" của các mô hình ngôn ngữ quy mô lớn (LLM) bằng cách sử dụng các kỹ thuật khám phá khác nhau. Trái với những kỳ vọng thông thường về tư duy mềm, chúng tôi nhận thấy rằng LLM chủ yếu dựa vào các thành phần có ảnh hưởng nhất của mã thông báo mềm, hạn chế khả năng khám phá đường dẫn suy luận của chúng. Điều này tương tự như giải mã tham lam, vốn làm lu mờ lợi thế của việc truyền tải nhiều thông tin hơn thông qua mã thông báo mềm. Để giải quyết vấn đề này, chúng tôi giới thiệu tính ngẫu nhiên thông qua các chiến lược lấy mẫu như lấy mẫu lại Dirichlet và kỹ thuật Gumbel-Softmax, đồng thời kiểm chứng hiệu quả của chúng bằng thực nghiệm trên tám chuẩn suy luận. Chúng tôi xác nhận rằng kỹ thuật Gumbel-Softmax đạt được hiệu suất tốt nhất bằng cách cung cấp tính ngẫu nhiên phù hợp và độ mượt được kiểm soát.

Takeaways, Limitations

_____T39356____-: Chúng tôi chứng minh rằng suy luận mềm sử dụng mã thông báo mềm có thể được rút gọn thành giải mã tham lam đơn giản, và đề xuất rằng hiệu suất có thể được cải thiện bằng cách đưa tính ngẫu nhiên vào các chiến lược lấy mẫu (cụ thể là Gumbel-Softmax). Điều này giúp chúng tôi hiểu sâu hơn về quy trình suy luận LLM và đề xuất các cách sử dụng suy luận mềm hiệu quả.
_____T39357____-: Hiệu quả của chiến lược lấy mẫu được đề xuất có thể bị giới hạn ở một chuẩn mực cụ thể, và khả năng khái quát hóa của nó cho các loại bài tập LLM hoặc suy luận khác cần được nghiên cứu thêm. Hơn nữa, việc áp dụng tính ngẫu nhiên không phải lúc nào cũng dẫn đến hiệu suất được cải thiện, và việc xác định mức độ ngẫu nhiên tối ưu vẫn là một thách thức.
👍