Alex Zhihao Dou, Dongfei Cui, Jun Yan, Weida Wang, Benteng Chen, Haoming Wang, Zeke Xie, Shufei Zhang
개요
본 논문은 강화학습(RL) 에이전트의 일반화 능력 향상을 위해 대규모 언어 모델(LLM) 또는 비전 언어 모델(VLM)을 활용하는 기존 연구의 한계를 지적하며, 카네만의 시스템 1(직관적 사고)과 시스템 2(심층적 사고) 이론에서 영감을 얻은 이중 시스템 적응적 의사결정 프레임워크(DSADF)를 제안합니다. DSADF는 빠른 의사결정을 위한 RL 에이전트와 메모리 공간으로 구성된 시스템 1과 심층적 분석적 추론을 위한 VLM 기반 시스템 2를 통합하여 두 시스템의 장점을 결합함으로써 효율적이고 적응적인 의사결정을 가능하게 합니다. 비디오 게임 환경(Crafter 및 Housekeep)에서의 실험 결과, 제안된 방법이 알려지지 않은 작업과 알려진 작업 모두에서 의사결정 능력을 크게 향상시킨다는 것을 보여줍니다.