[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FOUNDER: Grounding Foundation Models in World Models for Open-Ended Embodied Decision Making

Created by
  • Haebom

저자

Yucen Wang, Rui Yu, Shenghua Wan, Le Gan, De-Chuan Zhan

개요

FOUNDER는 기초 모델(FM)의 일반화된 지식과 세계 모델(WM)의 동적 모델링 기능을 통합하여 보상 없이 구현된 환경에서 개방형 과제 해결을 가능하게 하는 프레임워크입니다. FM 표현을 WM 상태 공간에 매핑하는 함수를 학습하여 외부 관찰로부터 세계 시뮬레이터에서 에이전트의 물리적 상태를 유추합니다. 이 매핑을 통해 행동 학습 중에 상상을 통해 목표 조건 정책을 학습하고, 매핑된 작업을 목표 상태로 사용합니다. 목표 상태까지의 예측된 시간적 거리를 정보가 풍부한 보상 신호로 활용합니다. FOUNDER는 다양한 다중 작업 오프라인 시각 제어 벤치마크에서 우수한 성능을 보이며, 특히 복잡한 관찰이나 도메인 간격이 있는 시나리오에서 기존 방법이 어려움을 겪는 경우 텍스트 또는 비디오로 지정된 작업의 심층 의미를 포착하는 데 탁월합니다. 학습된 보상 함수와 실제 보상의 일관성도 실험적으로 검증되었습니다. 프로젝트 웹사이트는 https://sites.google.com/view/founder-rl 입니다.

시사점, 한계점

시사점:
기초 모델과 세계 모델을 통합하여 보상 없이도 구현된 환경에서 개방형 과제 해결 가능성을 제시.
복잡한 관찰이나 도메인 간격이 있는 시나리오에서 우수한 성능을 보임.
텍스트 또는 비디오로 지정된 작업의 심층 의미를 효과적으로 포착.
학습된 보상 함수의 일관성을 실험적으로 검증.
한계점:
제시된 벤치마크 외 다른 환경이나 작업에 대한 일반화 성능 검증 필요.
학습된 매핑 함수의 해석성 및 신뢰성에 대한 추가 연구 필요.
세계 모델의 정확성에 대한 의존도가 높을 수 있음. 세계 모델의 오류가 에이전트의 행동에 직접적인 영향을 미칠 가능성 존재.
👍