본 논문은 강화 학습(RL)에서 여러 목표를 동시에 최적화하는 정책을 효율적으로 추정하는 문제를 연구합니다. $n$개의 목표(또는 작업)가 주어졌을 때, 이러한 목표를 $k \ll n$개의 그룹으로 최적 분할하여 각 그룹이 함께 훈련될 수 있는 관련 목표로 구성되도록 합니다. 이 문제는 로봇 공학, 제어 및 언어 모델의 선호도 최적화와 같은 응용 분야에서 발생하며, $n$이 증가함에 따라 모든 $n$개의 목표에 대한 단일 정책을 학습하는 것은 최적이 아닙니다. 이를 해결하기 위해 메타 훈련과 미세 조정을 포함하는 2단계 절차를 도입했습니다. 먼저 다중 작업 학습을 사용하여 모든 목표에 대한 메타 정책을 학습합니다. 그런 다음, 메타 정책을 여러 무작위로 샘플링된 목표 하위 집합에 적용합니다. 적응 단계에서는 잘 훈련된 정책 네트워크의 1차 근사 속성을 활용하며, 이는 다양한 RL 환경에서 2% 오차 범위 내에서 정확한 것으로 경험적으로 검증되었습니다. 결과 알고리즘인 PolicyGradEx는 정책 평가 알고리즘이 주어졌을 때 집계 작업 친화도 점수 행렬을 효율적으로 추정합니다. 추정된 친화도 점수 행렬을 기반으로, 내부 클러스터 친화도 점수를 최대화하여 $n$개의 목표를 $k$개 그룹으로 클러스터링합니다. 로봇 제어 및 Meta-World 벤치마크에 대한 실험을 통해 본 접근 방식이 최첨단 기준선을 평균 16% 능가하며 클러스터를 얻기 위해 전체 훈련을 수행하는 것보다 최대 26배 더 빠른 속도를 제공함을 보여줍니다. 제거 연구는 본 접근 방식의 각 구성 요소를 검증합니다. 예를 들어, 무작위 그룹화 및 기울기 유사성 기반 그룹화와 비교하여 손실 기반 클러스터링은 19%의 향상을 보입니다. 마지막으로, 손실 표면의 Hessian 추적을 측정하여 정책 네트워크의 일반화 오류를 분석하여 관찰된 일반화 오류와 관련된 유효한 측정을 제공합니다.