Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Subgoal Graph-Augmented Planning for LLM-Guided Open-World Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Shanwei Fan

개요

대규모 언어 모델(LLM)은 강화 학습(RL)에서 작업을 하위 목표로 분해하여 강력한 상위 수준 계획 능력을 제공합니다. 그러나, 추상적인 계획과 실행 가능한 환경 호환 동작 간의 중요한 격차인, 계획-실행 정렬 불량으로 인해 실제 유용성이 제한됩니다. 이 정렬 불량은 두 가지 상호 관련된 제한 사항에서 발생합니다: (1) LLM은 환경 특정 지식에 대한 충분한 근거가 없어 의미상 타당하지만, 대상 환경에서 실행 불가능하거나 관련 없는 하위 목표를 자주 생성합니다. (2) 단일 LLM 계획은 생성과 자체 검증을 혼합하여 실행 중 자주 실패하는 과신하지만 신뢰할 수 없는 하위 목표를 초래합니다. 이러한 문제를 해결하기 위해, 환경 특정 하위 목표 그래프 및 구조화된 엔티티 지식을 생성, 비판, 개선을 명시적으로 분리하는 다중 LLM 계획 파이프라인과 통합하는 SGA-ACR (Subgoal Graph-Augmented Actor-Critic-Refiner) 프레임워크를 제안합니다. 하위 목표 추적기는 추가 보상을 제공하고, 계획과 동작 간의 정렬을 유지하기 위해 하위 목표 그래프를 적응적으로 업데이트하여 실행 진행 상황을 추가로 모니터링합니다. 개방형 세계 게임 "Crafter"의 22가지 다양한 작업에 대한 실험 결과는 제안된 방법의 효과를 보여줍니다.

시사점, 한계점

시사점:
SGA-ACR 프레임워크는 환경 특정 하위 목표 그래프와 구조화된 엔티티 지식을 활용하여 계획-실행 정렬 불량 문제를 해결합니다.
다중 LLM 파이프라인을 통해 생성, 비판, 개선 단계를 명확히 분리하여 실행 가능하고 검증 가능한 하위 목표를 생성합니다.
실험 결과는 Crafter 게임 내 다양한 작업에서 제안된 방법의 효과를 입증합니다.
하위 목표 추적기를 통해 실행 진행 상황을 모니터링하고, 추가 보상 제공 및 하위 목표 그래프 업데이트를 통해 계획과 동작 간의 정렬을 유지합니다.
한계점:
논문에서 구체적인 한계점은 명시적으로 언급되지 않았습니다.
"Crafter" 게임에 대한 실험 결과만을 제시하고 있어 다른 환경으로의 일반화 가능성에 대한 추가 연구가 필요합니다.
다중 LLM 사용에 따른 계산 비용 증가 가능성이 있습니다.
👍