본 논문은 다단계 부분 관측 환경에서 증명 가능한 보장을 가진 최초의 구현 가능한 수정 가능성 프레임워크를 제시합니다. 단일 불투명 보상 대신, 복종, 스위치 접근 보존, 진실성, 신념 기반의 Attainable Utility Preservation 확장을 통한 저영향 행동, 그리고 제한된 작업 보상 등 5가지 구조적으로 분리된 유틸리티 헤드를 도입하여 엄격한 가중치 차이로 어휘적으로 결합합니다. 정리 1은 부분적으로 관측 가능한 오프 스위치 게임에서 정확한 단일 라운드 수정 가능성을 증명하고, 정리 3은 다단계 자체 생성 에이전트로 보장을 확장하여 각 헤드가 평균 제곱 오차 ε로 학습되고 계획자가 ε-최적이 아닌 경우에도 모든 안전 속성을 위반할 확률이 경계되면서 여전히 순 인간적 이익을 보장함을 보여줍니다. 모든 규범을 하나의 학습된 스칼라에 통합하는 Constitutional AI 또는 RLHF/RLAIF와 달리, 본 프레임워크의 분리는 인센티브가 충돌하는 경우에도 복종과 영향 제한이 우선하도록 합니다. 적대자가 에이전트를 수정할 수 있는 개방형 설정의 경우, 임의의 해킹 후 에이전트가 수정 가능성을 위반할지 여부를 결정하는 것이 정지 문제로 축소되어 결정 불가능함을 증명한 후, 안전성을 확률적 다항 시간 내에 인증하고 개인 정보 보호가 유지되는 상수 라운드 제로 지식 증명으로 검증할 수 있는 유한 지평 "결정 가능한 섬"을 구축합니다. 따라서 남은 과제는 데이터 적용 범위 및 일반화라는 일반적인 ML 작업입니다. 보상 해킹 위험은 숨겨진 인센티브 누출이 아닌 평가 품질로 이동하여 오늘날의 LLM 어시스턴트 및 미래의 자율 시스템에 대한 명확한 구현 지침을 제공합니다.