Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation

Created by
  • Haebom

저자

Yuhang Huang, JIazhao Zhang, Shilong Zou, XInwang Liu, Ruizhen Hu, Kai Xu

개요

본 논문은 로봇 정책 성능 향상을 위해 예측된 상태를 활용하는 예측적 조작(Predictive Manipulation)에 초점을 맞추고 있습니다. 특히, 로봇-객체 상호작용의 미래 시각적 상태를 정확하게 생성하는 것은 어려운 문제이며, 고품질 픽셀 수준 표현을 달성하는 데 어려움이 있습니다. 이를 해결하기 위해, 본 논문은 확산 모델링을 사용하여 미래 상태의 잠재 공간을 예측하는 세계 모델 LaDi-WM을 제안합니다. LaDi-WM은 기하학적 특징(DINO 기반)과 의미적 특징(CLIP 기반)을 포함하는 사전 훈련된 시각적 기반 모델(VFM)과 정렬된 잠재 공간을 활용합니다. 픽셀 수준 이미지를 직접 예측하는 것보다 잠재 공간의 진화를 예측하는 것이 학습이 더 쉽고 일반화가 더 잘 된다는 것을 발견했습니다. LaDi-WM을 기반으로, 예측된 상태를 통합하여 출력 동작을 반복적으로 개선하는 확산 정책을 설계하여 더 일관되고 정확한 결과를 생성합니다. 합성 및 실제 벤치마크에 대한 광범위한 실험을 통해 LaDi-WM이 LIBERO-LONG 벤치마크에서 27.9%, 실제 시나리오에서 20%의 정책 성능을 크게 향상시킨다는 것을 보여줍니다. 또한, 제안된 세계 모델과 정책은 실제 실험에서 인상적인 일반화 성능을 달성합니다.

시사점, 한계점

시사점:
확산 모델을 이용한 잠재 공간 예측을 통해 고품질 픽셀 수준 이미지 예측의 어려움을 극복하고, 예측적 조작 성능을 향상시켰습니다.
사전 훈련된 VFM의 잠재 공간을 활용하여 세계 모델의 학습 및 일반화 성능을 향상시켰습니다.
제안된 확산 정책은 예측된 상태를 반복적으로 통합하여 더욱 정확하고 일관된 결과를 생성합니다.
합성 및 실제 환경 모두에서 상당한 성능 향상을 보였습니다.
한계점:
제안된 방법의 성능은 사전 훈련된 VFM의 성능에 의존적일 수 있습니다.
실제 환경에서의 일반화 성능은 환경의 복잡성에 따라 제한될 수 있습니다.
장기간의 예측에 대한 정확도가 추가적으로 검증되어야 합니다.
계산 비용이 높을 수 있습니다.
👍