본 논문은 강력한 에이전트가 배포될 때 근본적인 시스템을 변경하지 않고 인간의 의미 있는 통제를 유지하는 방법을 연구합니다. 에이전트가 자율적으로 행동(play)하거나 지시를 구하는(ask) 것을 선택하고, 인간은 허용(trust)하거나 감독(oversee)할지를 선택하는 최소한의 제어 인터페이스를 연구합니다. 이러한 상호 작용을 2인 마르코프 게임으로 모델링하고, 특히 마르코프 잠재 게임(MPG)으로 분류되는 경우에 초점을 맞춥니다. 이 프레임워크는 에이전트가 자율적으로 행동하여 얻는 이점이 인간에게 해를 끼치지 않는다는 정렬 보장을 제공합니다.