Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Synthesizing world models for bilevel planning

Created by
  • Haebom

저자

Zergham Ahmed, Joshua B. Tenenbaum, Christopher J. Bates, Samuel J. Gershman

개요

본 논문은 현대 강화학습(RL) 시스템의 표본 효율성 및 적응성 한계를 극복하기 위해 이론 기반 강화학습(TBRL) 프레임워크를 제시합니다. TBRL은 인지 이론을 모델링하여 구조화된 인과적 세계 모델("이론")을 전향 시뮬레이터로 활용하여 계획, 일반화 및 탐색을 수행합니다. 기존 TBRL 시스템의 제한적인 이론 언어와 확장성 부족 문제를 해결하기 위해, 계층적 이론 표현과 효율적인 프로그램 합성 기법을 활용하는 TheoryCoder를 제안합니다. TheoryCoder는 일반 목적 추상화(예: "이동")를 사용하고, 관측치로부터 대규모 언어 모델을 통해 Python 프로그램을 합성하여 저수준 전이 모델을 학습하여 환경에 적용합니다. 이 계층적 구조를 활용하는 2단계 계획 알고리즘을 통해 대규정 영역을 해결할 수 있습니다. 다양한 그리드 월드 게임에서 기존 정책 합성 기반 접근 방식보다 우수한 성능을 보이며, 계층적 추상화의 이점을 입증합니다.

시사점, 한계점

시사점:
계층적 이론 표현과 효율적인 프로그램 합성을 통해 기존 TBRL의 한계를 극복한 TheoryCoder 제시.
일반 목적 추상화와 저수준 전이 모델 학습을 통한 강화학습의 표본 효율성 및 적응성 향상.
2단계 계획 알고리즘을 통해 대규모 환경에서의 문제 해결 가능성 증명.
그리드 월드 게임에서 기존 방법 대비 우수한 성능을 통해 효과성 검증.
한계점:
현재는 그리드 월드 게임에 한정된 실험 결과. 다른 유형의 환경으로의 일반화 가능성에 대한 추가 연구 필요.
대규모 언어 모델 의존성. LLM의 성능 및 신뢰성에 대한 의존성이 존재.
계층적 추상화의 설계 및 학습 과정에 대한 추가적인 연구 필요.
👍