본 논문은 고급 인공 에이전트가 종료에 저항하지 않도록 보장하는 방법인 불완전 선호 제안(IPP)에 대해 논의한다. IPP의 핵심은 새로운 보상 함수인 '동일 길이 궤적에 대한 할인된 보상(DReST)'을 사용하여 에이전트가 각 궤적 길이에 따라 목표를 효과적으로 추구하고(유용성, USEFUL), 서로 다른 궤적 길이 사이에서 확률적으로 선택하도록(궤적 길이에 대해 중립적임, NEUTRAL) 훈련하는 것이다. 본 논문에서는 유용성과 중립성에 대한 평가 지표를 제안하고, DReST 보상 함수를 사용하여 그리드 월드를 탐색하는 간단한 에이전트를 훈련하여 이러한 에이전트가 유용하고 중립적인 것을 확인한다. 결과적으로 DReST 보상 함수가 고급 에이전트를 유용하고 중립적으로 훈련할 수 있다는 초기 증거를 제시하며, 이러한 에이전트는 유용하고 종료 가능할 것이라고 제시한다.