Pelican-Unify 1.0: A Unified Embodied Intelligence Model for Understanding, Reasoning, Imagination and Action

작성자

Haebom

카테고리

Empty

저자

Yi Zhang, Yinda Chen, Che Liu, Zeyuan Ding, Jin Xu, Shilong Zou, Junwei Liao, Jiayu Hu, Xiancong Ren, Xiaopeng Zhang, Yechi Liu, Haoyuan Shi, Zecong Tang, Haosong Sun, Renwen Cui, Kuishu Wu, Wenhai Liu, Yang Xu, Yingji Zhang, Yidong Wang, Senkang Hu, Jinpeng Lu, Nga Teng Chan, Yechen Wu, Zeting Liu, Xianzhou Hou, Yong Dai, Jian Tang, Xiaozhu Ju

💡 개요

본 논문은 통일성의 원칙에 따라 훈련된 최초의 체화된 기초 모델인 Pelican-Unify 1.0을 소개합니다. Pelican-Unify 1.0은 단일 VLM(Vision-Language Model)을 사용하여 장면, 지침, 시각적 맥락 및 행동 이력을 공유 의미 공간으로 매핑하는 통합 이해 모듈로 활용합니다. 또한, 동일한 VLM은 하나의 순방향 통과(forward pass)로 작업, 행동, 미래 지향적 사고 과정을 연쇄적으로 생성하고 최종 은닉 상태를 밀집된 잠재 변수로 투영하는 통합 추론 모듈 역할을 합니다.

🔑 시사점 및 한계

•

통합 모델의 성능 유지: 여러 독립적인 전문 시스템을 훈련하는 대신, 이해, 추론, 상상, 행동 기능을 단일 모델로 통합함으로써 각 기능의 전문적인 강점을 유지하면서도 전반적인 성능을 향상시킬 수 있음을 입증했습니다.

•

효율적인 훈련 및 추론: 단일 VLM을 통해 이해와 추론을 동시에 수행하고, 통합 잠재 변수를 기반으로 미래 영상과 행동을 단일 디노이징 과정에서 생성하여 효율성을 높였습니다.

•

다중 모달리티의 공동 최적화: 언어, 영상, 행동 손실을 공유 표현으로 역전파하여 훈련 과정에서 네 가지 핵심 기능(이해, 추론, 상상, 행동)을 공동으로 최적화하는 새로운 접근 방식을 제시했습니다.

•

한계점 및 향후 과제: 논문에서 제시된 성능은 특정 벤치마크에서의 결과이며, 실제 복잡하고 동적인 환경에서의 일반화 성능이나 장기적인 계획 및 상호작용 능력에 대한 추가적인 검증이 필요할 수 있습니다. 또한, 모델의 복잡성과 훈련 비용이 커질 가능성에 대한 고려도 필요합니다.

PDF 보기

Made with Slashpage