# Dynamic Sight Range Selection in Multi-Agent Reinforcement Learning

### 저자

Wei-Chen Liao, Ti-Rong Wu, I-Chen Wu

### 개요

본 논문은 다중 에이전트 강화 학습(MARL)에서 에이전트들이 환경으로부터 부족하거나 과도한 정보를 받는 시야 범위 딜레마 문제를 해결하기 위해 새로운 방법인 동적 시야 범위 선택(DSR)을 제안합니다. DSR은 UCB 알고리즘을 활용하여 훈련 중 시야 범위를 동적으로 조절하며, LBF, RWARE, SMAC 세 가지 MARL 환경에서 QMIX 및 MAPPO 알고리즘을 포함한 여러 MARL 알고리즘에서 성능 향상을 보였습니다.  DSR은 훈련 단계에 따라 적절한 시야 범위를 제공하여 훈련 속도를 높이고, 훈련 중 사용된 최적의 시야 범위를 나타내어 해석성을 높입니다.  전역 정보나 통신 메커니즘에 의존하는 기존 방법과 달리, 에이전트의 개별 시야 범위에만 기반하여 작동하는 실용적이고 효율적인 해결책을 제시합니다.

### 시사점, 한계점

- **시사점:**

    - 다중 에이전트 강화학습에서 시야 범위 딜레마 문제에 대한 효과적인 해결책 제시

    - LBF, RWARE, SMAC 등 다양한 환경과 QMIX, MAPPO 등 다양한 알고리즘에서 성능 향상 확인

    - 동적 시야 범위 조절을 통한 훈련 속도 향상

    - 최적 시야 범위 정보 제공으로 해석성 향상

    - 에이전트의 개별 시야 범위만을 사용하여 실용적이고 효율적인 접근 방식 제공

- **한계점:**

    - 제시된 세 가지 환경과 알고리즘 외 다른 환경이나 알고리즘에 대한 일반화 성능 검증 필요

    - UCB 알고리즘의 매개변수 조정에 대한 추가적인 연구 필요

    - 실제 복잡한 환경에서의 적용 가능성에 대한 추가적인 실험 필요

    - DSR의 계산 복잡도 및 효율성에 대한 심층적인 분석 필요

[PDF 보기](https://arxiv.org/pdf/2505.12811)

![https://i.imgur.com/r429bAI.jpeg](https://i.imgur.com/r429bAI.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).