자연어로 명시된 복잡하고 다단계적인 의사결정 작업을 수행할 수 있는 자율 에이전트를 개발하는 것은, 특히 레이블이 지정된 데이터가 부족하고 실시간 실험이 비현실적인 실제 환경에서는 상당한 과제입니다. 기존 강화학습(RL) 접근 방식은 종종 보이지 않는 목표와 상태로 일반화하는 데 어려움을 겪어 적용성이 제한됩니다. 본 논문에서는 기호 환경에서 오프라인 언어 조건 정책 학습을 위한 새로운 교육 파이프라인인 TEDUO를 소개합니다. 기존 방법과 달리 TEDUO는 쉽게 이용 가능한 비표지 데이터 세트에서 작동하며 이전에 보지 못한 목표와 상태로의 일반화 과제를 해결합니다. 본 접근 방식은 대규모 언어 모델(LLM)을 이중적인 용량으로 활용합니다. 첫째, 더 풍부한 주석이 있는 오프라인 데이터 세트를 확장하는 자동화 도구로서, 둘째, 일반화 가능한 지침 따르기 에이전트로서 활용합니다. 실험 결과는 TEDUO가 강력한 언어 조건 정책의 데이터 효율적인 학습을 달성하여 기존 RL 프레임워크 또는 즉시 사용 가능한 LLM만으로는 달성할 수 없는 작업을 수행함을 보여줍니다.