Sign In

World Simulation with Video Foundation Models for Physical AI

Created by
  • Haebom
Category
Empty

저자

NVIDIA, :, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu

개요

Cosmos World Foundation Models for Physical AI의 최신 버전인 [Cosmos-Predict2.5]를 소개합니다. Flow-based 아키텍처를 기반으로 하며, Text2World, Image2World, Video2World 생성을 단일 모델로 통합합니다. [Cosmos-Reason1]을 활용하여 텍스트 기반과 세계 시뮬레이션을 정교하게 제어합니다. 2억 개의 큐레이션된 비디오 클립으로 학습하고 강화 학습 기반 후속 학습을 통해 개선된 [Cosmos-Predict2.5]는 [Cosmos-Predict1]보다 비디오 품질과 명령 정렬에서 상당한 개선을 보입니다. 또한, Sim2Real 및 Real2Real 세계 변환을 위한 Control-net 스타일 프레임워크인 [Cosmos-Transfer2.5]를 개발했습니다. [Cosmos-Transfer1]보다 3.5배 작지만 더 높은 충실도와 장기적인 비디오 생성을 제공합니다. 오픈 소스, 사전 훈련된 체크포인트 및 큐레이션된 벤치마크를 릴리스하여 Physical AI 연구 및 배포를 가속화합니다.

시사점, 한계점

시사점:
Text2World, Image2World, Video2World를 통합하는 단일 모델로의 발전.
향상된 비디오 품질 및 명령 정렬.
Sim2Real 및 Real2Real 변환을 위한 효율적인 프레임워크 [Cosmos-Transfer2.5] 개발.
오픈 소스 모델 및 리소스 제공을 통한 연구 접근성 향상.
한계점:
구체적인 모델 성능 지표에 대한 자세한 정보 부족.
[Cosmos-Reason1]의 상세한 작동 방식에 대한 설명 부족.
모델의 일반화 성능에 대한 추가적인 정보 필요.
[Cosmos-Predict2.5]와 [Cosmos-Transfer2.5]의 상호 작용 및 통합에 대한 추가 정보 필요.
👍