본 논문은 다중 에이전트 강화 학습(MARL)에서 협력적 과제의 크레딧 할당과 환경 상태의 부분 관측이라는 두 가지 주요 병목 현상을 해결하기 위해 대규모 언어 모델(LLM)과 진화적 최적화를 통합한 LERO 프레임워크를 제안한다. LERO는 LLM을 이용하여 보상 분해를 통해 개별 크레딧을 동적으로 할당하는 하이브리드 보상 함수와 부분 관측에 추론된 환경 맥락을 추가하는 관측 향상 함수를 생성한다. 진화 알고리즘은 반복적인 MARL 훈련 주기에서 이러한 구성 요소를 최적화하며, 최고 성능의 후보는 후속 LLM 생성을 안내한다. 다중 에이전트 입자 환경(MPE)에서의 평가는 LERO가 기준 방법보다 우수한 작업 성능과 훈련 효율성을 보임을 보여준다.