본 논문은 메타 강화 학습에서 unseen task에 대한 일반화 성능을 향상시키는 새로운 알고리즘인 Task-Aware Virtual Training (TAVT)을 제안합니다. 기존 context-based meta-RL 방법들이 out-of-distribution (OOD) task에 취약한 점을 해결하기 위해, TAVT는 metric-based representation learning을 이용하여 training 및 OOD 시나리오 모두에서 task 특징을 정확하게 포착합니다. 가상 task에서 task 특징을 효과적으로 보존하고, state regularization 기법을 통해 state-varying 환경에서의 과대 추정 오류를 완화합니다. MuJoCo 및 MetaWorld 환경에서의 실험 결과, TAVT가 OOD task에 대한 일반화 성능을 크게 향상시키는 것을 보여줍니다. 소스 코드는 github에서 공개됩니다.