Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ÍT hơn là nhiều hơn: Những cạm bẫy của dữ liệu sở thích tổng hợp đa mô hình trong việc căn chỉnh an toàn DPO

Created by
  • Haebom

Tác giả

Yifan Wang, Runjin Chen, Bolian Li, David Cho, Yihe Đặng, Ruqi Zhang, Tianlong Chen, Zhangyang Wang, Ananth Grama, Junyuan Hong

Phác thảo

Trong bài báo này, chúng tôi nhận thấy rằng trong khi căn chỉnh các mô hình ngôn ngữ quy mô lớn (LLM) theo các giá trị của con người bằng Tối ưu hóa Ưu tiên Trực tiếp (DPO), việc sử dụng dữ liệu tạo đa mô hình cải thiện hiệu suất tác vụ chung nhưng lại làm giảm hiệu suất an toàn. Cụ thể, chúng tôi xác nhận rằng tỷ lệ thành công tấn công (ASR) đối với các lời nhắc bẻ khóa tăng lên khi một mô hình mạnh như GPT-4o được sử dụng để tạo ra các phản hồi ưu tiên và bị từ chối. Chúng tôi nhận thấy rằng việc sử dụng dữ liệu tạo mô hình đơn lẻ vượt trội hơn đáng kể so với việc sử dụng dữ liệu tạo đa mô hình về mặt an toàn, và chúng tôi đã phân tích rằng điều này là do mô hình sử dụng các manh mối hời hợt thay vì nội tại hóa các ràng buộc an toàn do khả năng phân tách tuyến tính cao của dữ liệu đa mô hình. Chúng tôi đã củng cố kết luận này thông qua các kết quả thử nghiệm trên các họ mô hình Llama, Mistral và Qwen.

Takeaways, Limitations

Takeaways: Nghiên cứu này cho thấy cần cân nhắc kỹ lưỡng những ưu điểm và nhược điểm của việc sử dụng dữ liệu tạo đa mô hình để cải thiện tính an toàn của LLM sử dụng DPO. Việc sử dụng dữ liệu tạo mô hình đơn lẻ có thể hiệu quả hơn về mặt an toàn. Nghiên cứu này cho thấy rõ ràng rằng việc sử dụng dữ liệu tạo đa mô hình với một mô hình mạnh thực sự có thể làm giảm tính an toàn.
Limitations: Nghiên cứu này dựa trên kết quả thực nghiệm trên một loạt mô hình và tập dữ liệu cụ thể, do đó khả năng khái quát hóa cho các mô hình hoặc tập dữ liệu khác còn hạn chế. Cần phân tích sâu hơn về nguyên nhân gây suy giảm an toàn của dữ liệu được tạo ra từ nhiều mô hình. Cần nghiên cứu thêm về các chiến lược DPO thay thế để cải thiện an toàn.
👍