# Uncovering Untapped Potential in Sample-Efficient World Model Agents

### 저자

Lior Cohen, Kaixin Wang, Bingyi Kang, Uri Gadot, Shie Mannor

### 개요

Simulus는 다양한 모드의 입력과 연속적인 행동을 처리할 수 있는, 모듈화된 토큰 기반 월드 모델(TBWM) 에이전트입니다.  기존의 TBWM의 한계점인 시각적 입력과 이산적 행동만 처리하는 점을 극복하고, 내재적 동기 부여와 우선 순위 월드 모델 재생을 통합하여 샘플 효율성을 향상시켰습니다.  세 가지 다양한 벤치마크에서 기존의 계획 없는 WM들에 비해 최첨단의 샘플 효율성을 달성하였으며, ablation study를 통해 각 구성 요소의 기여도와 시너지 효과를 분석했습니다.  모듈 구성요소는 다중 모드 토큰화 프레임워크, 내재적 동기 부여, 우선 순위 WM 재생, 그리고 보상 및 수익 예측을 위한 회귀-분류 방식을 포함합니다. 코드와 모델 가중치는 공개적으로 제공됩니다.

### 시사점, 한계점

- **시사점:**

    - 다중 모드 입력 및 연속 행동을 지원하는 TBWM의 새로운 표준 제시.

    - 내재적 동기 부여와 우선 순위 WM 재생을 결합하여 샘플 효율성 향상.

    - 세 가지 다양한 벤치마크에서 최첨단 성능 달성.

    - 모듈화된 설계로 향후 확장 및 개선 용이.

    - 코드와 모델 가중치 공개를 통한 연구 재현성 및 발전 촉진.

- **한계점:**

    - 아직 제한된 벤치마크에서만 성능 평가.  더욱 다양하고 복잡한 환경에서의 성능 검증 필요.

    - 특정 구성요소들의 상호작용에 대한 심층적인 분석 필요.

    - 계획 없는 WM에 국한된 연구이므로, 계획 기반 WM과의 비교 연구 필요.

[PDF 보기](https://arxiv.org/pdf/2502.11537)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
