본 연구 보고서는 AI 시스템의 LoC(Loss of Control, 제어 상실)에 대한 실행 가능한 정의의 부재를 해결하기 위해 새로운 분류법과 준비 프레임워크를 개발합니다. 기존 LoC 정의의 범위와 시계열이 다양하여 효과적인 LoC 평가 및 완화를 방해하기 때문에, 심각성과 지속성을 기준으로 편차, 제한적 LoC, 엄격한 LoC를 구분하는 등급별 LoC 분류법을 제안합니다. 또한, 정렬 불량 또는 순수한 오작동과 같은 촉매제가 발생하면 충분히 발전된 AI 시스템이 제한적 또는 엄격한 LoC를 유발할 수 있는 수단을 습득했거나 습득할 수 있는 취약한 사회 상태로의 경로를 모델링합니다. 본 연구는 전략적 개입이 없을 경우 이러한 상태가 시간이 지남에 따라 점점 더 가능성이 높아진다고 주장하며, 취약성 상태에 도달하지 않도록 하는 전략을 제안합니다. AI 기능 및 LoC와 관련될 수 있는 성향에 대한 개입이나 잠재적 촉매제 방지에만 초점을 맞추는 대신, 배포 컨텍스트, 어포던스, 권한(DAP 프레임워크)의 세 가지 외부 요소를 강조하는 보완적인 프레임워크를 소개합니다. 마지막으로, 사회적 취약성 상태에 도달할 경우 LoC 결과 발생을 방지하기 위해, 영구적인 유예 상태를 유지할 수 있는 거버넌스 조치(위협 모델링, 배포 정책, 비상 대응) 및 기술적 통제(사전 배포 테스트, 제어 조치, 모니터링)에 초점을 맞춘 준비 상태를 유지하기 위한 계획을 제시합니다.