Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PAN: A World Model for General, Interactable, and Long-Horizon World Simulation

Created by
  • Haebom
Category
Empty

저자

PAN Team, Jiannan Xiang, Yi Gu, Zihan Liu, Zeyu Feng, Qiyue Gao, Yiyan Hu, Benhao Huang, Guangyi Liu, Yichi Yang, Kun Zhou, Davit Abrahamyan, Arif Ahmad, Ganesh Bannur, Junrong Chen, Kimi Chen, Mingkai Deng, Ruobing Han, Xinqi Huang, Haoqiang Kang, Zheqi Li, Enze Ma, Hector Ren, Yashowardhan Shinde, Rohan Shingre, Ramsundar Tanikella, Kaiming Tao, Dequan Yang, Xinle Yu, Cong Zeng, Binglin Zhou, Hector Liu, Zhiting Hu, Eric P. Xing

개요

PAN은 에이전트가 행동에 대한 세계의 진화를 상상, 예측 및 추론하고 이에 따라 계획 및 전략을 세울 수 있도록 하는 일반적이고 상호작용 가능하며 장기적인 세계 모델입니다. PAN은 대규모 언어 모델(LLM)을 기반으로 하는 자동 회귀 잠재 역학 백본과 시각적으로 상세하고 시간적으로 일관된 시각적 관측치를 재구성하는 비디오 확산 디코더를 결합한 Generative Latent Prediction(GLP) 아키텍처를 사용합니다. 이는 잠재 공간 추론(상상력)과 실현 가능한 세계 역학(현실) 사이의 통일을 달성합니다. 다양한 도메인을 포괄하는 대규모 비디오-액션 쌍으로 훈련된 PAN은 일관된 장기적 역학을 통해 개방형 도메인, 액션 조건부 시뮬레이션을 지원합니다.

시사점, 한계점

강력한 액션 조건부 세계 시뮬레이션, 장기 예측 및 시뮬레이션 추론 성능 달성
다른 비디오 생성기 및 세계 모델보다 뛰어난 성능
잠재 공간 추론과 실현 가능한 세계 역학의 통합
개방형 도메인, 액션 조건부 시뮬레이션 지원
훈련 데이터에 의존적일 수 있음
복잡한 상호 작용 및 환경에서의 일반화는 추가 연구 필요
LLM 기반 백본의 한계점 공유 가능성
👍