본 논문은 로봇 제어와 같이 훈련 시점에 알 수 없는 다양한 작업이 연속적으로 수행되는 동적 의사결정 문제를 다룬다. 기존의 다중 작업 강화학습이나 메타 강화학습은 작업의 다양성이 클 경우 일반화 성능이 떨어지는 한계가 있다. 작업 임베딩이나 작업 군집화와 같이 작업 다양성을 해결하려는 기존 접근 방식은 성능 보장이 부족하고 많은 훈련 작업을 필요로 한다. 본 논문에서는 실행 중 발생하는 작업에 대해 최소 하나의 근사 최적 정책을 높은 확률로 포함하는 정책 위원회를 학습하는 새로운 방법을 제안한다. 이 문제가 일반적으로 근사 불가능함을 보이지만, 두 가지 실용적인 알고리즘 솔루션을 제시한다. 첫 번째는 작업이 저차원일 때 증명 가능한 근사 및 작업 샘플 복잡도 보장을 제공하며(근사 불가능성으로 인해 최선의 결과), 두 번째는 일반적이고 실용적인 기울기 기반 접근 방식이다. 또한, 몇 번의 학습으로의 학습에 대한 증명 가능한 샘플 복잡도 경계를 제공한다. MuJoCo와 Meta-World 실험에서 제안된 방법은 다중 작업, 메타 및 작업 군집 기준보다 훈련, 일반화 및 몇 번의 학습에서 종종 큰 차이로 성능이 우수함을 보여준다.