본 논문은 임무 수행이 중요한 협상 상황에서 작용자 AI 시스템을 위한 평가 프레임워크를 제시합니다. 다양한 인간 운영자와 이해관계자에 적응할 수 있는 AI 에이전트의 필요성을 해결하기 위해 Sotopia 시뮬레이션 테스트베드를 사용하여 두 가지 실험을 통해 성격 특성과 AI 에이전트 특성이 LLM로 시뮬레이션된 사회적 협상 결과에 어떻게 영향을 미치는지 체계적으로 평가했습니다. 이는 팀 간 조정 및 민군 상호 작용을 포함하는 다양한 응용 프로그램에 필수적인 기능입니다. 실험 1에서는 인과적 발견 방법을 사용하여 성격 특성이 가격 협상에 미치는 영향을 측정하여, 친화성과 외향성이 신뢰성, 목표 달성 및 지식 획득 결과에 상당한 영향을 미친다는 것을 발견했습니다. 팀 커뮤니케이션에서 추출된 사회인지 어휘 척도는 에이전트의 공감적 의사소통, 도덕적 기반 및 의견 패턴에서 미묘한 차이를 감지하여, 위험이 큰 작전 시나리오에서 안정적으로 작동해야 하는 작용자 AI 시스템에 대한 실행 가능한 통찰력을 제공합니다. 실험 2에서는 시뮬레이션된 인간의 성격과 AI 시스템 특성(특히 투명성, 역량, 적응성)을 조작하여 인간-AI 직업 협상을 평가하여 AI 에이전트의 신뢰성이 임무 효과에 어떻게 영향을 미치는지 보여줍니다. 이러한 결과는 다양한 운영자의 성격과 인간-에이전트 팀 역학에 걸쳐 AI 에이전트의 신뢰성을 실험하기 위한 반복 가능한 평가 방법론을 확립하여 안정적인 AI 시스템에 대한 운영 요구 사항을 직접적으로 지원합니다. 본 연구는 표준 성능 측정 기준을 넘어 복잡한 작전에서 임무 성공에 필수적인 사회적 역동성을 통합함으로써 작용자 AI 워크플로의 평가를 발전시킵니다.