본 논문은 대규모 언어 모델(LLM)의 성공을 따른 에이전트 개발의 최근 발전에 초점을 맞추어, 복잡하고 장기간의 멀티 에이전트 작업에서 발생하는 어려움을 해결하기 위한 새로운 접근 방식을 제안한다. 특히 로봇 축구와 같은 문제에서, 복잡한 탐색 공간과 희소한 보상으로 인해 end-to-end 방식이 실패하는 점을 지적하며, 세계 모델이 물리 법칙뿐만 아니라 작업 의미론도 모델링해야 한다고 주장한다. 2024년 저자원 멀티 에이전트 축구 연구를 분석하여, 계층적 태스크 네트워크(HTNs) 및 베이지안 전략 네트워크(BSNs)와 같은 기호적, 계층적 방법을 멀티 에이전트 강화 학습(MARL)과 통합하는 경향을 확인하고, 이를 Hierarchical Task Environments (HTEs) 프레임워크로 공식화하여 복잡한 목표를 관리 가능한 하위 목표로 분해하고 내재적 커리큘럼을 생성한다. LLM을 작업의 생성적 세계 모델로 활용하여 이 프레임워크를 동적으로 구축하고, 탐색을 안내하고, 학습 신호를 생성하며, 계층적 구조를 내재화하도록 에이전트를 훈련시켜 end-to-end 방식보다 효율적인 샘플을 통해 더 강력하고 일반적인 에이전트를 개발할 수 있도록 한다.