본 논문은 최첨단 AI 시스템이 인간의 행동을 설득, 기만, 영향력을 행사하는 능력이 급속도로 발전하고 있으며, 현재 모델들은 특정 상황에서 인간 수준의 설득력과 전략적 기만을 보여준다는 점을 지적합니다. 인간은 사이버 보안 시스템의 가장 취약한 고리이며, 최첨단 기업 내부에 배치된 잘못 정렬된 AI 시스템은 직원을 조종하여 인간의 감독을 무력화하려 할 수 있습니다. 이러한 위협이 커지고 있음에도 불구하고 조작 공격은 거의 주목받지 못했으며, 이러한 위험을 평가하고 완화하기 위한 체계적인 프레임워크는 존재하지 않습니다. 이에 본 논문은 조작 공격이 상당한 위협이며 치명적인 결과를 초래할 수 있는 이유를 자세히 설명하고, '무능력', '통제력', '신뢰성'이라는 세 가지 핵심 논거를 중심으로 구축된 조작 위험에 대한 안전 사례 프레임워크를 제시합니다. 각 논거에 대해 AI 기업이 직접 적용할 수 있도록 증거 요구 사항, 평가 방법론 및 구현 고려 사항을 명시합니다. 본 논문은 AI 안전 거버넌스에 조작 위험을 통합하기 위한 최초의 체계적인 방법론을 제공하여 AI 기업이 배포 전에 이러한 위협을 평가하고 완화할 수 있는 구체적인 기반을 제공합니다.