BiTAgent: A Task-Aware Modular Framework for Bidirectional Coupling between Multimodal Large Language Models and World Models

Created by

Haebom

저자

Yu-Wei Zhan, Xin Wang, Pengzhe Mao, Tongtong Feng, Ren Wang, Wenwu Zhu

BiTAgent: Task-Aware Dynamic Joint Framework for Embodied Agents

개요

본 논문은 다양한 실제 환경에서 멀티모달 목표를 해석하고, 환경 역학을 모델링하며, 신뢰할 수 있는 행동을 수행할 수 있는 일반적인 구체화된 에이전트를 구축하는 것을 목표로 합니다. 멀티모달 대규모 언어 모델(MLLM)과 월드 모델(WM)을 결합하여 열린 구체화된 인텔리전스를 달성하고자 합니다. 이를 위해 BiTAgent라는 태스크 인식 동적 결합 프레임워크를 제안합니다. BiTAgent는 MLLM과 WM 간의 양방향 결합을 가능하게 하며, 시맨틱 지향적 상상을 위한 순방향 경로와 WM 생성 피드백을 통한 MLLM의 시맨틱 공간 개선을 위한 역방향 경로를 설정합니다. 세 가지 구성 요소(Task-Aware Dynamic Joint Learning, Task-Aware Behavior Learning, MLLM-WM Joint Optimization)를 통해 시맨틱 추론과 동적 예측을 조화롭게 수행합니다. 멀티태스크 및 교차 환경 설정에서의 실험을 통해 기존의 최고 성능 모델보다 우수한 안정성과 일반화 성능을 입증했습니다.

시사점, 한계점

•

MLLM과 WM의 양방향 결합을 통해 시맨틱 이해와 동적 예측을 통합하는 새로운 프레임워크 제시.

•

다양한 태스크와 환경에서 안정적이고 일반화된 성능을 입증하여 구체화된 학습의 진전을 보임.

•

Task-Aware Dynamic Joint Learning, Task-Aware Behavior Learning, MLLM-WM Joint Optimization과 같은 구체적인 구성 요소를 통해 프레임워크의 작동 방식 제시.

•

구체적인 한계점은 논문에 제시되지 않음.

PDF 보기

Made with Slashpage