Sign In

Embodied World Models Emerge from Navigational Task in Open-Ended Environments

Created by
  • Haebom
Category
Empty

저자

Li Jin, Liu Jia

개요

본 논문은 부분적으로 관찰 가능한 환경에서의 공간 추론을 수동적 예측 모델이 아닌, 지각과 행동이 밀접하게 결합된 맥락에서 접근합니다. 희소 보상으로 훈련된 순환 에이전트가 절차적으로 생성된 평면 미로를 풀면서 방향, 거리, 장애물 배치와 같은 메트릭 개념을 자율적으로 내면화할 수 있는지 연구합니다. 훈련 후, 에이전트는 보이지 않는 미로에서도 일관되게 최적 경로에 가까운 경로를 생성하며, 이는 내부적인 공간 모델의 존재를 시사합니다. 에이전트-환경 루프를 하이브리드 동적 시스템으로 보고, 상태 공간에서 안정적인 한계 순환을 확인하고, Ridge Representation을 사용하여 전체 궤적을 공통 메트릭 공간에 임베딩하여 행동을 특징짓습니다. 정준 상관 분석을 통해 신경 매니폴드와 행동 매니폴드 간의 강력한 선형 정렬을 확인하고, 가장 유익한 신경 차원의 표적화된 섭동은 탐색 성능을 크게 저하시킵니다. 이러한 동적, 표상적, 인과적 신호는 지속적인 감각 운동 상호 작용이 컴팩트하고 구현된 세계 모델의 자발적 출현에 충분하며, 해석 가능하고 전이 가능한 탐색 정책을 향한 원칙적인 경로를 제공함을 보여줍니다.

시사점, 한계점

시사점:
지속적인 감각 운동 상호 작용을 통해 컴팩트하고 구현된 세계 모델이 자발적으로 출현할 수 있음을 보여줌.
해석 가능하고 전이 가능한 탐색 정책을 위한 원칙적인 경로 제시.
희소 보상만으로도 에이전트가 공간적 개념을 자율적으로 학습할 수 있음을 증명.
하이브리드 동적 시스템 분석 및 Ridge Representation을 활용한 새로운 접근 방식 제시.
한계점:
실험 환경이 평면 미로로 제한되어 실제 세계 적용 가능성에 대한 추가 연구 필요.
더 복잡한 환경이나 과제에 대한 일반화 가능성 검증 필요.
사용된 Ridge Representation의 한계 및 다른 표현 방법과의 비교 연구 필요.
보상 함수의 설계가 결과에 미치는 영향에 대한 추가 분석 필요.
👍