Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

BiasGym: Những thành kiến LLM tuyệt vời và cách tìm ra (và loại bỏ) chúng

Created by
  • Haebom

Tác giả

Sekh Mainul Islam, Nadav Borenstein, Siddhesh Milind Pawar, Haeun Yu, Arnav Arora, Isabelle Augenstein

Phác thảo

Bài báo này trình bày BiasGym, một khuôn khổ mới để hiểu và giảm thiểu các thành kiến và định kiến vốn có trong các mô hình ngôn ngữ quy mô lớn (LLM). BiasGym bao gồm hai thành phần: BiasInject, đưa các thành kiến cụ thể vào thông qua tinh chỉnh dựa trên token mà không thay đổi trọng số của mô hình, và BiasScope, sử dụng các tín hiệu được đưa vào để xác định và điều chỉnh nguyên nhân của hành vi thiên kiến. BiasGym cho phép phân tích cơ chế thông qua việc quy nạp thiên kiến nhất quán, hỗ trợ giảm thiểu thiên kiến có mục tiêu mà không ảnh hưởng đến hiệu suất của các tác vụ con, và tổng quát hóa các thành kiến không được phát hiện trong quá trình tinh chỉnh dựa trên token. Nó chứng minh hiệu quả trong việc giảm thiểu các định kiến trong thế giới thực (ví dụ: người Ý là "lái xe liều lĩnh") và các liên tưởng hư cấu (ví dụ: người dân từ các quốc gia hư cấu có "làn da xanh"), chứng minh tính hữu ích của nó trong cả các can thiệp an toàn và các nghiên cứu về khả năng diễn giải.

Takeaways, Limitations

Takeaways:
Chúng tôi cung cấp một khuôn khổ đơn giản, tiết kiệm chi phí và có thể tổng quát hóa để đưa vào, phân tích và giảm thiểu thành kiến một cách hiệu quả trong LLM.
Việc tinh chỉnh dựa trên mã thông báo cho phép phân tích cơ chế bằng cách liên tục tạo ra độ lệch.
Hỗ trợ giảm thiểu sai lệch có mục tiêu mà không ảnh hưởng đến hiệu suất của tác vụ phụ.
Nó cũng khái quát hóa thành những sai lệch không thấy được trong quá trình tinh chỉnh dựa trên mã thông báo.
Nó có thể áp dụng cho cả bối cảnh thực tế và hư cấu, giúp ích cho các nghiên cứu về khả năng can thiệp và diễn giải an toàn.
Limitations:
Cần có thêm các thử nghiệm và xác minh về hiệu suất tổng quát của BiasGym.
Khả năng áp dụng cho các loại LLM và loại thiên kiến khác nhau cần được đánh giá rộng rãi hơn.
Cần có một phân tích sâu hơn về độ chính xác và độ tin cậy của BiasInject và BiasScope.
Cần phải xác nhận thêm để xác nhận hiệu quả của nó đối với nhiều thành kiến phức tạp hoặc tương tác với nhau.
👍