Bài báo này trình bày một khuôn khổ đánh giá cho các hệ thống AI của tác nhân trong các tình huống đàm phán quan trọng đối với nhiệm vụ. Bài báo giải quyết nhu cầu về các tác nhân AI có thể thích ứng với nhiều người vận hành và bên liên quan. Sử dụng môi trường mô phỏng Sotopia, chúng tôi đánh giá một cách có hệ thống cách các đặc điểm tính cách và đặc điểm của tác nhân AI ảnh hưởng đến kết quả của các cuộc đàm phán xã hội mô phỏng LLM trong hai thí nghiệm, điều này rất cần thiết cho nhiều ứng dụng bao gồm phối hợp giữa các nhóm và tương tác dân sự-quân sự. Trong Thí nghiệm 1, chúng tôi sử dụng các phương pháp khám phá nhân quả để đo lường tác động của các đặc điểm tính cách đối với các cuộc đàm phán giá cả, nhận thấy rằng sự dễ chịu và hướng ngoại ảnh hưởng đáng kể đến độ tin cậy, thành tích đạt được mục tiêu và kết quả tiếp thu kiến thức. Sử dụng thước đo vốn từ vựng nhận thức xã hội được trích xuất từ giao tiếp nhóm, chúng tôi phát hiện ra những khác biệt tinh tế trong giao tiếp đồng cảm, nền tảng đạo đức và các mô hình quan điểm của tác nhân, cung cấp những hiểu biết có thể hành động cho các hệ thống AI của tác nhân phải hoạt động đáng tin cậy trong các tình huống hoạt động có rủi ro cao. Trong Thí nghiệm 2, chúng tôi đánh giá các cuộc đàm phán công việc giữa con người và AI bằng cách thao túng tính cách con người được mô phỏng và các đặc điểm của hệ thống AI (cụ thể là tính minh bạch, năng lực và khả năng thích ứng) để chứng minh cách độ tin cậy của các tác nhân AI ảnh hưởng đến hiệu quả của nhiệm vụ. Những kết quả này hỗ trợ trực tiếp các yêu cầu hoạt động đối với các hệ thống AI đáng tin cậy bằng cách thiết lập một phương pháp đánh giá có thể lặp lại để kiểm tra độ tin cậy của các tác nhân AI trên nhiều tính cách của người vận hành và động lực nhóm tác nhân-con người. Nghiên cứu này thúc đẩy việc đánh giá các quy trình làm việc của tác nhân AI bằng cách vượt ra ngoài các số liệu hiệu suất tiêu chuẩn và kết hợp các động lực xã hội cần thiết cho sự thành công của nhiệm vụ trong các hoạt động phức tạp.