Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

When Object-Centric World Models Meet Policy Learning: From Pixels to Policies, and Where It Breaks

Created by
  • Haebom
Category
Empty

저자

Stefano Ferraro, Akihiro Nakano, Masahiro Suzuki, Yutaka Matsuo

DLPWM: Disentangled Latent Perception for World Models

개요

Object-centric world model (OCWM)은 시각적 장면을 객체 수준 표현으로 분해하여 강화 학습에서 구성적 일반화와 데이터 효율성을 향상시키는 것을 목표로 한다. 본 논문에서는 명시적으로 분리된 객체 수준 표현이 작업 관련 정보를 국지화하여 새로운 특징 조합에서 정책 성능을 향상시킬 수 있다고 가정한다. 이 가설을 검증하기 위해, 픽셀에서 직접 객체 수준 잠재 변수를 학습하는 완전 비지도 분리형 객체 중심 세계 모델인 DLPWM을 제안한다. DLPWM은 여러 Out-of-Distribution (OOD) 시각적 변동에 대한 강건함을 포함하여 강력한 재구성 및 예측 성능을 달성한다. 그러나 다운스트림 모델 기반 제어에 사용될 때, DLPWM 잠재 변수에서 훈련된 정책은 DreamerV3보다 성능이 떨어진다. 잠재 변수-궤적 분석을 통해 다중 객체 상호 작용 중 표현 이동이 불안정한 정책 학습의 주요 원인임을 확인하였다. 본 연구 결과는 객체 중심 지각이 견고한 시각적 모델링을 지원하지만, 안정적인 제어를 달성하려면 잠재 변동을 완화해야 함을 시사한다.

시사점, 한계점

객체 중심 지각은 견고한 시각적 모델링을 지원한다.
분리된 객체 수준 표현은 새로운 특징 조합에서 정책 성능을 향상시킬 수 있다.
다중 객체 상호 작용 중 표현 이동은 불안정한 정책 학습을 유발한다.
안정적인 제어를 위해서는 잠재 변동 완화가 필요하다.
DLPWM은 DreamerV3보다 다운스트림 제어 작업에서 성능이 떨어진다.
👍