본 논문은 비전과 언어를 모두 이해해야 하는 과제에서 딥러닝 에이전트의 어려움을 해결하기 위해 Perception-Decision Interleaving Transformer (PDiT) 아키텍처를 구현하고, 텍스트 미션 임베딩과 시각적 장면 특징을 정렬하기 위해 CLIP에서 영감을 받은 대조 손실을 통합합니다. BabyAI GoToLocal 환경에서 PDiT 인코더를 평가한 결과, 표준 PPO 기반보다 안정적인 보상과 강력한 정렬을 달성하여, 통합된 자율 에이전트 개발에 대한 유망한 방향성을 제시합니다.