자동 기계 조건부 강화 학습(RL)은 실행 시점에 주어진 시간적으로 확장된 목표를 수행할 수 있는 다중 작업 정책을 학습하는 데 유망한 결과를 보여주었습니다. 이는 하류 정책을 훈련하기 전에 자동 기계 임베딩을 사전 훈련하고 고정함으로써 수행됩니다. 그러나 이전에는 이론적 보장이 없었습니다. 본 연구는 자동 기계 조건부 RL 문제에 대한 이론적 프레임워크를 제공하고, 이것이 아마도 대략적으로 정확하게 학습 가능함을 보여줍니다. 그런 다음 입증 가능하게 정확한 자동 기계 임베딩을 학습하는 기술을 제시하여 최적의 다중 작업 정책 학습을 보장합니다. 실험적 평가는 이러한 이론적 결과를 확인합니다.