다중 에이전트 강화 학습(MARL)에서 효과적인 보상 함수 설계의 어려움을 해결하기 위해, 다양한 전문성 수준의 인간 피드백을 통합하는 새로운 프레임워크인 M3HF(Multi-agent Reinforcement Learning from Multi-phase Human Feedback of Mixed Quality)를 제시합니다. M3HF는 여러 단계에 걸쳐 다양한 질의 인간 피드백을 통합하여 에이전트 정책을 지속적으로 개선합니다. 인간 평가를 위해 에이전트 학습을 전략적으로 중단하고, 대규모 언어 모델을 사용하여 피드백을 분석하고, 미리 정의된 템플릿과 가중치 감소 및 성능 기반 조정을 통해 보상 함수를 업데이트합니다. 이를 통해 다양한 질의 수준에 걸친 미묘한 인간 통찰력을 통합하여 다중 에이전트 협력의 해석력과 강건성을 향상시킵니다. 복잡한 환경에서의 실험 결과는 M3HF가 최첨단 방법보다 훨씬 우수하며, MARL에서 보상 설계의 복잡성을 효과적으로 해결하고 교육 과정에 광범위한 인간 참여를 가능하게 함을 보여줍니다.