본 논문은 임무 수행에 중요한 협상 상황에서 작용자 AI 시스템을 위한 평가 프레임워크를 제시합니다. 다양한 인간 운영자와 이해 관계자에 적응할 수 있는 AI 에이전트의 필요성을 다룹니다. Sotopia 시뮬레이션 환경을 사용하여, 두 가지 실험을 통해 성격 특성과 AI 에이전트 특성이 LLM으로 시뮬레이션된 사회적 협상 결과에 어떻게 영향을 미치는지 체계적으로 평가합니다. 이는 팀 간 조정 및 민군 상호 작용을 포함한 다양한 응용 분야에 필수적인 기능입니다. 실험 1에서는 인과적 발견 방법을 사용하여 성격 특성이 가격 협상에 미치는 영향을 측정하여, 친화성과 외향성이 신뢰성, 목표 달성 및 지식 획득 결과에 상당한 영향을 미친다는 것을 발견했습니다. 팀 커뮤니케이션에서 추출한 사회인지 어휘 측정을 통해 에이전트의 공감적 의사소통, 도덕적 기반 및 의견 패턴의 미묘한 차이를 감지하여, 고위험 운영 시나리오에서 안정적으로 작동해야 하는 작용자 AI 시스템에 대한 실행 가능한 통찰력을 제공합니다. 실험 2에서는 시뮬레이션된 인간의 성격과 AI 시스템 특성(특히 투명성, 역량, 적응성)을 조작하여 인간-AI 직무 협상을 평가하여 AI 에이전트의 신뢰성이 임무 효율성에 미치는 영향을 보여줍니다. 이러한 결과는 다양한 운영자의 성격과 인간-에이전트 팀 역학에 걸쳐 AI 에이전트의 신뢰성을 실험하기 위한 반복 가능한 평가 방법론을 확립하여 신뢰할 수 있는 AI 시스템에 대한 운영 요구 사항을 직접 지원합니다. 본 연구는 표준 성과 지표를 넘어 복잡한 운영에서 임무 성공에 필수적인 사회적 역동성을 통합함으로써 작용자 AI 워크플로의 평가를 발전시킵니다.