머신 러닝에서 학습된 모델이 의도한 목표 함수를 실제로 만족시킨다는 가정을 Objective Satisfaction Assumption (OSA)이라고 부른다. 본 논문은 OSA가 실제 환경에서 실패할 수 있음을 지적하며, 근사, 추정, 최적화 오류 및 목표 함수의 불완전한 사양으로 인해 의도한 목표에서 체계적인 편차가 발생한다고 주장한다. 특히, 개발자의 의도를 완벽하게 포착하고 형식적인 목표로 변환하는 것은 현실적으로 불가능하며, 강력한 최적화 압력 하에서 Goodhart의 법칙 실패 모드로 이어질 수 있음을 강조한다. 따라서 일반 목적 인공지능 시스템의 최적화에는 원칙적인 제한이 필요하며, 그렇지 않을 경우 예측 가능하고 돌이킬 수 없는 제어 손실이 발생할 수 있다고 경고한다.