Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learning Primitive Embodied World Models: Towards Scalable Robotic Learning

Created by
  • Haebom
Category
Empty

저자

Qiao Sun, Liujia Yang, Wei Tang, Wei Huang, Kaixin Xu, Yongchao Chen, Mingyu Liu, Jiange Yang, Haoyi Zhu, Yating Wang, Tong He, Yilun Chen, Xili Dai, Nanyang Ye, Qinying Gu

개요

비디오 생성 기반의 임베디드 월드 모델은 많은 관심을 받고 있지만, 대규모 임베디드 상호 작용 데이터에 대한 의존성이 주요 병목 현상으로 남아있습니다. 이에 본 논문은 원시 동작의 다양성이 가능한 원시 동작의 상대적으로 작은 공간을 훨씬 초과한다는 관찰을 바탕으로, Primitive Embodied World Models (PEWM)이라는 새로운 월드 모델링 패러다임을 제안합니다. 이 모델은 고정된 짧은 수평선으로 비디오 생성을 제한하여, 언어적 개념과 로봇 동작의 시각적 표현 간의 미세한 정렬을 가능하게 하고, 학습 복잡성을 줄이며, 임베디드 데이터 수집의 데이터 효율성을 개선하고, 추론 지연 시간을 감소시킵니다. 또한 모듈식 비전-언어 모델(VLM) 플래너와 Start-Goal heatmap Guidance 메커니즘(SGG)을 갖춰, PEWM은 유연한 폐쇄 루프 제어를 가능하게 하고, 확장되고 복잡한 작업에 대한 원시 수준 정책의 구성적 일반화를 지원합니다.

시사점, 한계점

시사점:
언어적 개념과 로봇 동작의 미세한 정렬을 가능하게 함.
학습 복잡성 감소.
임베디드 데이터 수집의 데이터 효율성 향상.
추론 지연 시간 감소.
유연한 폐쇄 루프 제어 지원.
원시 수준 정책의 구성적 일반화 지원.
미세한 물리적 상호 작용과 고차원적 추론 사이의 격차를 해소하여 확장 가능하고 해석 가능하며 일반적인 임베디드 지능을 위한 길을 제시함.
한계점:
논문에 구체적인 한계점은 명시되지 않음. (제안된 방법론의 잠재적 한계는 추후 연구를 통해 밝혀질 수 있음)
👍