Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LERO: LLM-driven Evolutionary framework with Hybrid Rewards and Enhanced Observation for Multi-Agent Reinforcement Learning

Created by
  • Haebom

저자

Yuan Wei, Xiaohan Shan, Jianmin Li

개요

본 논문은 다중 에이전트 강화 학습(MARL)에서 협력적 과제의 크레딧 할당과 환경 상태의 부분 관측이라는 두 가지 주요 병목 현상을 해결하기 위해 대규모 언어 모델(LLM)과 진화적 최적화를 통합한 LERO 프레임워크를 제안한다. LERO는 LLM을 이용하여 보상 분해를 통해 개별 크레딧을 동적으로 할당하는 하이브리드 보상 함수와 부분 관측에 추론된 환경 맥락을 추가하는 관측 향상 함수를 생성한다. 진화 알고리즘은 반복적인 MARL 훈련 주기에서 이러한 구성 요소를 최적화하며, 최고 성능의 후보는 후속 LLM 생성을 안내한다. 다중 에이전트 입자 환경(MPE)에서의 평가는 LERO가 기준 방법보다 우수한 작업 성능과 훈련 효율성을 보임을 보여준다.

시사점, 한계점

시사점:
LLM을 활용하여 MARL의 크레딧 할당 및 부분 관측 문제를 효과적으로 해결하는 새로운 프레임워크 제시
하이브리드 보상 함수와 관측 향상 함수를 통해 MARL의 성능과 훈련 효율 향상
진화적 최적화를 통해 LLM 기반 구성 요소를 효과적으로 최적화하는 방법 제시
MPE 환경에서 LERO의 우수성을 실험적으로 검증
한계점:
제안된 프레임워크의 일반성에 대한 추가적인 검증 필요 (MPE 환경 외 다른 환경에서의 성능 평가)
LLM의 크기 및 계산 비용에 대한 고려 필요
진화적 최적화 과정의 효율성 개선 및 매개변수 조정에 대한 추가 연구 필요
LLM의 설명 가능성 및 신뢰성에 대한 추가적인 연구 필요
👍