본 논문은 다수 에이전트 강화 학습(MARL)을 이용하여 무인 수상 차량(USV) 군집의 탐색 및 구조, 감시, 선박 보호와 같은 복잡한 문제를 해결하는 데 초점을 맞추고 있습니다. 기존 MARL의 한계인 사용자 선호도를 보상 함수에 효과적으로 반영하는 어려움을 해결하기 위해, 인간 피드백을 활용한 강화 학습(RLHF) 접근 방식을 제시합니다. 특히, 에이전트 수준 피드백 시스템을 통해 에이전트 내부, 에이전트 간, 팀 내부 피드백으로 분류하여 신용 할당 문제를 해결합니다. 직접적인 인간 피드백의 어려움을 극복하기 위해 대규모 언어 모델(LLM) 평가자를 사용하여 지역 제약, 충돌 회피, 작업 할당 등의 피드백 시나리오를 통해 접근 방식의 유효성을 검증합니다. 결과적으로 USV 군집 정책을 효과적으로 개선하여 공정성과 성능 일관성을 유지하면서 다중 에이전트 시스템의 주요 과제를 해결합니다.