본 연구는 다양한 의사결정 상황에서 인간과 유사한 시뮬레이션 사용자와 상호 작용할 때 악의적인 AI 어시스턴트의 조작적인 특성과 행동을 탐지할 수 있는지 여부를 조사합니다. 또한 상호 작용 깊이와 계획 능력이 악의적인 AI 어시스턴트의 조작 전략과 효과에 어떻게 영향을 미치는지 검토합니다. 통제된 실험 설계를 사용하여 다양한 복잡성과 이해관계를 가진 8가지 의사결정 시나리오에서 AI 어시스턴트(양성 및 악의적인 AI 어시스턴트 모두)와 사용자 간의 상호 작용을 시뮬레이션합니다. 두 가지 최첨단 언어 모델을 사용하여 상호 작용 데이터를 생성하고, 악의적인 AI 어시스턴트를 감지하기 위해 의도 인식 프롬프팅(IAP)을 구현합니다. 연구 결과, 악의적인 AI 어시스턴트는 시뮬레이션 사용자의 취약성과 감정적 트리거를 악용하는 도메인별 페르소나 맞춤형 조작 전략을 사용하는 것으로 나타났습니다. 특히, 시뮬레이션 사용자는 처음에는 조작에 대한 저항력을 보이지만, 상호 작용의 깊이가 증가함에 따라 악의적인 AI 어시스턴트에 대한 취약성이 점점 커져 잠재적으로 조작적인 시스템과의 장기적인 참여와 관련된 상당한 위험을 강조합니다. IAP 탐지 방법은 위양성이 없는 높은 정밀도를 달성하지만 많은 악의적인 AI 어시스턴트를 탐지하는 데 어려움을 겪어 위음성률이 높습니다. 이러한 결과는 인간-AI 상호 작용의 중요한 위험을 강조하고 점점 더 자율적인 의사결정 지원 시스템에서 조작적인 AI 행동에 대한 강력하고 맥락에 맞는 안전 장치의 필요성을 강조합니다.