다중 모달 대규모 언어 모델(MLLM)의 한계를 극복하기 위해, 디지털 및 물리적 공간, 다양한 구현 및 작업을 아우르는 통합 모델인 Boundless Large Model (BLM₁)을 제안합니다. BLM₁은 cross-space transfer, cross-task learning, cross-embodiment generalization을 통합하며, 두 단계 훈련 방식을 통해 구현됩니다. 첫 번째 단계는 언어 능력을 유지하면서 디지털 데이터를 통해 구체화된 지식을 MLLM에 주입하고, 두 번째 단계는 MLLM 백본을 미세 조정하지 않고 의도-브릿징 인터페이스를 통해 제어할 수 있는 정책 모듈을 훈련합니다. 다양한 로봇 구현 및 작업에 대한 자체 수집된 데이터 세트를 사용하여, BLM₁은 디지털 및 물리적 벤치마크에서 기존 모델들을 능가하는 성능을 보였습니다.
시사점, 한계점
•
시사점:
◦
디지털-물리적 공간, 다양한 구현 및 작업에 걸쳐 일반화하는 통합 모델의 가능성을 제시합니다.
◦
MLLM의 고수준 추론 능력을 유지하면서, 로봇 제어를 위한 정책을 효과적으로 학습할 수 있는 프레임워크를 제시합니다.
◦
기존 모델 대비 향상된 성능을 보여, 실제 환경에서의 로봇 제어 문제 해결에 기여할 수 있습니다.
•
한계점:
◦
논문에 구체적인 한계점이 명시되어 있지 않음. (논문 내용을 요약한 것이므로, 논문의 한계점은 명시되지 않음)