본 논문은 인공지능 정렬(alignment) 문제의 두 가지 핵심 과제, 즉 1) 확장 가능한 감독 및 2) 인간 가치의 역동적인 본질을 고려하는 것에 대해 논의합니다. 기존의 재귀적 보상 모델링과 같은 해결책은 첫 번째 과제에 대한 해결책을 제시하지만, 두 번째 과제는 동시에 해결하지 못합니다. 본 논문은 초인적 추론 모델을 훈련시켜 복잡한 작업을 여전히 인간 수준의 지도가 가능한 하위 작업으로 분해하는 새로운 알고리즘 프레임워크에 대한 로드맵을 제시합니다. 이 접근 방식은 하위 작업 해결책의 정렬이 완전한 해결책의 정렬로 일반화된다는 '부분-전체 일반화 가설'에 기반합니다. 또한, 이러한 일반화를 측정하고 향후 개선할 방법을 제안합니다.