Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Bản đồ chính sách: Công cụ hướng dẫn không gian vô hạn của hành vi LLM

Created by
  • Haebom

Tác giả

Michelle S. Lam, Fred Hohman, Dominik Moritz, Jeffrey P. Bigham, Kenneth Holstein, Mary Beth Kery

Phác thảo

Bài báo này trình bày "Bản đồ Chính sách", một phương pháp mới để thiết kế chính sách hiệu quả trên không gian hành vi rộng lớn của các mô hình ngôn ngữ quy mô lớn (LLM). Lấy cảm hứng từ bản đồ vật lý, phương pháp này tạo điều kiện cho việc khám phá hiệu quả thông qua các lựa chọn thiết kế có chủ đích về việc nên nắm bắt khía cạnh nào và nên trừu tượng hóa khía cạnh nào, thay vì cố gắng bao hàm tất cả các hành vi. "Máy chiếu Chính sách", một công cụ tương tác, cho phép người dùng khám phá bối cảnh của các cặp đầu vào-đầu ra LLM, xác định các vùng do người dùng xác định (ví dụ: "bạo lực") và khám phá các vùng này bằng các quy tắc chính sách có điều kiện có thể áp dụng cho đầu ra LLM (ví dụ: nếu đầu ra chứa "bạo lực" và "chi tiết đồ họa", hãy viết lại mà không có "chi tiết đồ họa"). Phương pháp này hỗ trợ khả năng phân loại và định hướng LLM, cũng như trực quan hóa bản đồ phản ánh công việc của các chuyên gia AI. Các đánh giá với 12 chuyên gia về an toàn AI đã chứng minh tính hiệu quả của phương pháp này trong việc xây dựng chính sách cho các hành vi mô hình có vấn đề, chẳng hạn như giả định giới tính không chính xác và xử lý các mối đe dọa an toàn thể chất tức thời.

Takeaways, Limitations

Takeaways:
Trình bày cách tiếp cận mới để thiết kế chính sách hiệu quả trong không gian hành động rộng lớn của LLM.
Các công cụ tương tác cung cấp hỗ trợ trực quan và hiệu quả cho quá trình soạn thảo chính sách.
Xác thực tính thực tiễn và hiệu quả thông qua đánh giá của chuyên gia về an toàn AI
Cung cấp các giải pháp thực tế cho việc thiết kế chính sách đối với hành vi mô hình có vấn đề.
Limitations:
Cần có chuyên môn để thiết kế và xây dựng bản đồ chính sách
Cần nghiên cứu thêm về khả năng sử dụng và khả năng mở rộng của các công cụ hoạch định chính sách.
Cần phải xác nhận thêm về khả năng khái quát hóa do số lượng đánh giá của chuyên gia còn hạn chế.
Cần có thêm nghiên cứu về các loại LLM khác nhau và ứng dụng chính sách của chúng.
👍