본 논문은 오프라인 메타 강화학습(offline meta-RL)에서 고품질 샘플이나 사전 탐색(warmup explorations)에 의존하는 기존 방식의 한계를 극복하기 위해, 자연어를 이용한 새로운 프레임워크 T2DA(Text-to-Decision Agent)를 제안합니다. T2DA는 다양한 작업의 의사결정 데이터를 역동성을 고려한 임베딩 공간으로 인코딩하는 일반화된 월드 모델을 사용합니다. CLIP에서 영감을 받아, 텍스트 설명과 의사결정 임베딩 간의 대조 학습을 통해 의미 간극을 해소하고, 텍스트 임베딩이 환경 역동성을 이해하도록 정렬합니다. 훈련된 텍스트 조건부 일반 정책(text-conditioned generalist policy)은 자연어 명령에 대한 제로샷 텍스트-투-의사결정 생성을 가능하게 합니다. MuJoCo와 Meta-World 벤치마크에서의 실험 결과, T2DA는 높은 성능의 제로샷 일반화를 달성하고 다양한 기준 모델들을 능가함을 보여줍니다.