다중 작업 강화 학습은 환경과의 추가 상호 작용 없이 새로운 작업에 대한 솔루션을 신속하게 식별하는 것을 목표로 합니다. Generalized Policy Improvement (GPI)는 일련의 기본 정책을 결합하여 개별 기본 정책보다 적어도 나은 새로운 정책을 생성하여 이를 해결합니다. Convex Coverage Set (CCS)를 계산하는 기술을 통해 최적성을 보장할 수 있지만, 계산 비용이 많이 들고 복잡한 도메인으로 확장되지 않습니다. Option Keyboard (OK)는 기본 정책을 동적으로 결합하는 학습된 메타 정책을 통해 GPI를 개선합니다. 그러나 성능은 기본 정책 선택에 따라 크게 달라집니다. 이 논문은 최적의 동작 기반을 효율적으로 구축하는 새로운 방법을 소개하여, 모든 선형 작업에 대한 최적 솔루션을 제로샷으로 식별할 수 있는 최적의 기본 정책 집합이 있는지에 대한 문제를 해결합니다. 또한, CCS보다 표현력이 뛰어나 특정 클래스의 비선형 작업을 최적으로 해결할 수 있음을 입증합니다. 제안된 기술은 복잡성이 증가함에 따라 최첨단 접근 방식을 능가하는 것으로 나타났습니다.