본 논문은 다중 에이전트 강화 학습(MARL)을 활용하여 무인 수상 차량(USV) 군집의 탐색 및 구조, 감시, 선박 보호 등 복잡한 문제를 해결하는 방법을 제시합니다. 기존 MARL의 한계인 사용자 선호도 반영의 어려움을 해결하기 위해, 인간 피드백을 활용한 강화 학습(RLHF) 기반의 새로운 접근 방식을 제안합니다. 이 방법은 에이전트 수준의 피드백 시스템을 통해 에이전트 내부, 에이전트 간, 팀 내부 피드백을 구분하여 크레딧 할당 문제를 해결합니다. 직접적인 인간 피드백의 어려움을 극복하기 위해 대규모 언어 모델(LLM) 평가자를 사용하여 지역 제약, 충돌 회피, 작업 할당 등의 피드백 시나리오를 통해 접근 방식을 검증합니다. 결과적으로 USV 군집 정책을 효과적으로 개선하여 공정성과 성능 일관성을 유지하면서 다중 에이전트 시스템의 주요 과제를 해결합니다.