Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

IS-Bench: Đánh giá tính an toàn tương tác của các tác nhân được thể hiện bằng VLM trong các công việc gia đình hàng ngày

Created by
  • Haebom

Tác giả

Xiaoya Lu, Zeren Chen, Xuhao Hu, Yijin Chu, Weichen Zhang, Dongrui Liu, Lu Sheng, Jing Shao

Phác thảo

Việc lập kế hoạch sai sót trong các tác nhân vật thể hóa dựa trên các mô hình ngôn ngữ quy mô lớn (VLM) đặt ra những rủi ro an toàn nghiêm trọng, cản trở việc triển khai trong các tình huống thực tế. Các mô hình đánh giá tĩnh, không tương tác hiện có không thể đánh giá đầy đủ các rủi ro trong các môi trường tương tác này vì chúng không thể mô phỏng các rủi ro động phát sinh từ hành động của tác nhân và dựa vào các đánh giá hậu kiểm không đáng tin cậy, bỏ qua các bước trung gian không an toàn. Để giải quyết lỗ hổng quan trọng này, bài báo đề xuất một phương pháp để đánh giá mức độ an toàn tương tác của tác nhân—khả năng nhận biết các mối nguy hiểm mới nổi và thực hiện các bước giảm thiểu theo đúng trình tự thủ tục. Do đó, chúng tôi trình bày IS-Bench, chuẩn mực an toàn tương tác đa phương thức đầu tiên với 161 tình huống đầy thách thức liên quan đến 388 mối nguy hiểm an toàn riêng biệt được triển khai trong một trình mô phỏng độ trung thực cao. Quan trọng là, nó tạo điều kiện cho một đánh giá mới tập trung vào quy trình, xác định liệu các hành động giảm thiểu rủi ro được thực hiện trước hay sau một bước rủi ro cụ thể. Các thí nghiệm mở rộng trên các VLM hàng đầu, bao gồm dòng GPT-4o và Gemini-2.5, chứng minh rằng các tác nhân hiện tại thiếu nhận thức về an toàn tương tác, và mặc dù các chuỗi suy nghĩ nhận thức về an toàn có thể cải thiện hiệu suất, nhưng chúng thường cản trở việc hoàn thành nhiệm vụ. Bằng cách làm nổi bật những hạn chế quan trọng này, IS-Bench cung cấp nền tảng để phát triển các hệ thống AI hướng đối tượng an toàn và đáng tin cậy hơn. Mã nguồn và dữ liệu có sẵn tại liên kết này .

Takeaways, Limitations

Takeaways:
Trình bày về IS-Bench, một chuẩn mực mới để đánh giá rủi ro an toàn trong môi trường tương tác.
Đề Xuất phương pháp đánh giá theo quy trình để đánh giá an toàn tương tác.
Trình bày kết quả phân tích thực nghiệm về mức độ an toàn tương tác của các VLM chính.
Cung cấp nền tảng để phát triển các hệ thống AI hướng đối tượng an toàn hơn và đáng tin cậy hơn.
ĐảM bảo khả năng tái tạo và khả năng mở rộng của nghiên cứu thông qua mã và dữ liệu mở.
Limitations:
Hiện tại, IS-Bench đang được đánh giá trong môi trường mô phỏng có độ trung thực cao, do đó cần nghiên cứu thêm để xác định khả năng tổng quát hóa của nó trong môi trường thực tế.
Việc áp dụng phương pháp Chuỗi Tư duy (CHI) vào nhận thức về an toàn đã được chứng minh là có vấn đề, có khả năng dẫn đến tỷ lệ hoàn thành nhiệm vụ thấp hơn. Cần nghiên cứu để phát triển các kỹ thuật nâng cao an toàn hiệu quả hơn.
Cần xem xét thêm về tính đa dạng và khả năng khái quát hóa của các kịch bản được đưa vào chuẩn mực.
👍