Sign In

SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks

Created by
  • Haebom
Category
Empty

저자

Yue Deng, Weiyu Ma, Yuxin Fan, Ruyi Song, Yin Zhang, Haifeng Zhang, Jian Zhao

개요

본 논문은 StarCraft Multi-Agent Challenge (SMAC) 환경에서의 다중 에이전트 강화 학습(MARL) 문제를 해결하기 위해, DeepSeek LLM을 기반으로 의사결정 트리 코드를 생성하고, 이를 통해 Qwen2.5-7B-Base LLM을 fine-tuning하는 새로운 방법인 SMAC-R1을 제안합니다. 기존 MARL 알고리즘의 단점인 많은 학습 시간, 비해석성, 낮은 전이성을 극복하기 위해, 오프라인 학습과 온라인 강화 학습을 결합하여 DeepSeek LLM로 생성된 의사결정 트리 코드를 환경 피드백을 통해 개선하고, Supervised Fine-Tuning (SFT)와 Group Relative Policy Optimization (GRPO) 알고리즘을 사용하여 Qwen2.5-7B-Base LLM을 fine-tuning합니다. 실험 결과, SMAC의 기존 23개 과제와 새롭게 디자인된 10개 과제에서 고품질의 해석 가능한 의사결정 트리를 생성하고, 최소한의 환경 탐색으로 높은 성능을 달성하며, 동종 SMAC 환경에서의 강력한 전이성을 보여줍니다.

시사점, 한계점

시사점:
기존 MARL 알고리즘의 한계점인 많은 학습 시간, 비해석성, 낮은 전이성을 극복하는 새로운 방법 제시.
해석 가능하고 전이성이 높은 의사결정 트리 생성 가능.
최소한의 환경 탐색으로 높은 성능 달성.
도메인 특화 LLM 훈련 파이프라인에 대한 새로운 방향 제시.
한계점:
DeepSeek LLM과 같은 대규모 언어 모델에 대한 의존성.
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 환경에 대한 적용 가능성 검증 필요.
새롭게 디자인된 10개 과제의 구체적인 내용과 설계 원칙에 대한 설명 부족.
👍