본 논문은 다양한 실제 환경에서 멀티모달 목표를 해석하고, 환경 역학을 모델링하며, 신뢰할 수 있는 행동을 수행할 수 있는 일반적인 구체화된 에이전트를 구축하는 것을 목표로 합니다. 멀티모달 대규모 언어 모델(MLLM)과 월드 모델(WM)을 결합하여 열린 구체화된 인텔리전스를 달성하고자 합니다. 이를 위해 BiTAgent라는 태스크 인식 동적 결합 프레임워크를 제안합니다. BiTAgent는 MLLM과 WM 간의 양방향 결합을 가능하게 하며, 시맨틱 지향적 상상을 위한 순방향 경로와 WM 생성 피드백을 통한 MLLM의 시맨틱 공간 개선을 위한 역방향 경로를 설정합니다. 세 가지 구성 요소(Task-Aware Dynamic Joint Learning, Task-Aware Behavior Learning, MLLM-WM Joint Optimization)를 통해 시맨틱 추론과 동적 예측을 조화롭게 수행합니다. 멀티태스크 및 교차 환경 설정에서의 실험을 통해 기존의 최고 성능 모델보다 우수한 안정성과 일반화 성능을 입증했습니다.